网易首页 > 新闻中心 > 新闻 > 正文

SuperCLUE中文大模型评测:商汤商量SenseChat揽总榜和AI智能体两项第一

0
分享至

近日,中文通用大模型综合性评测基准SuperCLUE发布9月总排行榜和各个分类任务榜单,商汤商量SenseChat 3.0位列中文大模型总榜排名第一。在新增的AI Agent(AI智能体)子榜中,SenseChat 3.0同样排名第一,领先所有国内中文大模型以及GPT-3.5和 Claude 2,表现仅次于GPT-4,展示了商汤在大模型领域创新发展及释放生产力的优势,以及在探索AGI道路上的积累与潜力。

注:国外代表性模型(GPT4.0/Claude2/gpt-3.5)不参与排名。

SuperCLUE是中文通用大模型的综合性评测基准,旨在对大模型在各个能力维度上的表现进行全方位的评估,是国内最具专业性和代表性的中文大模型评测基准之一。此次评测选取了目前国内外最具代表性的20个通用大语言模型。

商量总榜第一,客观题成绩超GPT-3.5

9月最新发布的SuperCLUE总排行榜和各个分类任务榜单,主要聚焦于大模型的四个能力象限,语言理解与生成,包括语言理解与抽取、上下文对、生成与创作、角色扮演;专业技能与知识,包括知识与百科、计算、代码、逻辑与推理;Agent智能体,包括工具使用、任务规划;安全性,包括系统安全、指令攻击,总共12项基础能力。

在总排行榜中,商汤科技商量SenseChat 3.0以总分62.75分位列第一,其中在OPT客观题部分,商汤SenseChat 3.0得分还超过了GPT-3.5,展示了在中文大模型方面极强的综合竞争力。

商汤商量SenseChat于2023年4月正式推出,是国内最早的基于千亿参数大语言模型之一,并不断迭代更新。其背后依托的是商汤AI大装置SenseCore,目前上线GPU数量约30,000块,算力规模提升至6 ExaFLOPS,有效支持语言大模型的训练、升级迭代和服务。

推动AI智能体发展,加速迈向AGI

随着大模型发展,“聊天”已远远不能满足人们的要求,能够准确使用工具成为解放大模型生产力的关键。SuperCLUE新增的AI Agent(AI智能体)子榜,是业界首个AI Agent榜单,它重点评估了AI Agent在“工具使用”和“任务规划”两个关键能力上的表现。评测显示商汤商量SenseChat 3.0具备作为人类超级助手的潜力,可以根据人类需求自主完成任务,进而充分释放大模型的生产力,使其在 AI Agent 榜单上表现仅次于GPT-4,全面领先其余参评大模型。

目前全球领先的AI 智能体,几乎都以领先大模型GPT-4为核心驱动,它们借助强大的工具使用能力等,可将复杂问题拆解成可实现的子任务、类人的自然语言交互等能力。商量SenseChat 3.0作为领先的中文大模型,通过使用代码解释器、API调用和搜索三类常用工具来解决复杂任务,灵活搭建AI智能体应用,支撑企业的生产力革新。

目前,商量SenseChat已经在金融、手机、医疗、汽车、地产、能源、传媒、工业制造等众多垂直行业与超过500家客户建立了深度合作。作为具备强大工具使用能力的大模型,商量SenseChat的持续快速提升,为商汤发展更强大的、能够像人类一样进行交互的AI智能体,以及面向AGI道路的探索,都将提供重要的基础和支撑。

相关推荐
热点推荐
凌晨,单依纯发文道歉:错误全在我,与任何人无关;李荣浩回应:我的私信被骂成什么样?要是想要钱,我从一开始就会授权给你

凌晨,单依纯发文道歉:错误全在我,与任何人无关;李荣浩回应:我的私信被骂成什么样?要是想要钱,我从一开始就会授权给你

新民晚报
2026-03-30 08:38:34
全红婵聊到体重哭了,每天只吃一顿饭,看到体重秤就特别害怕

全红婵聊到体重哭了,每天只吃一顿饭,看到体重秤就特别害怕

素素娱乐
2026-03-30 11:08:05
可口可乐CEO辞职,因为无法面对AI转型的需要,沃尔玛前CEO也是因此在去年底卸任

可口可乐CEO辞职,因为无法面对AI转型的需要,沃尔玛前CEO也是因此在去年底卸任

新浪财经
2026-03-29 22:07:40
堕落的“清纯女星”酒井法子,这张腿间蝴蝶背后,隐藏着的故事

堕落的“清纯女星”酒井法子,这张腿间蝴蝶背后,隐藏着的故事

七阿姨爱八卦
2026-03-29 10:12:33
450亿颗芯片悬空!荷兰突然宣布光刻机决定,欧媒:一切都结束了

450亿颗芯片悬空!荷兰突然宣布光刻机决定,欧媒:一切都结束了

安珈使者啊
2026-03-29 14:37:11
跟低学历妹子谈恋爱是啥体验?网友:低社会化人群被女版黄毛拿下

跟低学历妹子谈恋爱是啥体验?网友:低社会化人群被女版黄毛拿下

带你感受人间冷暖
2026-03-28 16:48:21
人为造神:被推上神坛的郑成功

人为造神:被推上神坛的郑成功

浪子说
2026-03-24 07:13:53
李小龙81岁妻子罕见现身,与粉丝聚会状态好,女儿李香凝贴心照顾

李小龙81岁妻子罕见现身,与粉丝聚会状态好,女儿李香凝贴心照顾

素素娱乐
2026-03-30 10:14:48
杜月笙在河边钓鱼,遇到地痞要保护费,杜月笙:找你们老板过来

杜月笙在河边钓鱼,遇到地痞要保护费,杜月笙:找你们老板过来

千秋文化
2026-03-25 21:29:50
我做凶宅试睡员10年,我见过上百套凶宅,最终栽在了一套江景房里

我做凶宅试睡员10年,我见过上百套凶宅,最终栽在了一套江景房里

千秋文化
2026-03-28 21:31:38
够狠!阿联酋清空伊朗人居留权,5300亿资产说冻就冻

够狠!阿联酋清空伊朗人居留权,5300亿资产说冻就冻

老马拉车莫少装
2026-03-29 19:12:12
下周将启程访问大陆,郑丽文:为两岸和平稳定跨出成功第一步

下周将启程访问大陆,郑丽文:为两岸和平稳定跨出成功第一步

海峡导报社
2026-03-30 12:17:04
伊朗议长:美国假装谈判暗谋进攻

伊朗议长:美国假装谈判暗谋进攻

澎湃新闻
2026-03-29 19:59:02
突变!特朗普最新发声,黄金、白银V形拉升!原油回落!

突变!特朗普最新发声,黄金、白银V形拉升!原油回落!

证券时报e公司
2026-03-30 12:21:25
每年长出一个足球场!崇明岛快连上启东了,它还能叫岛吗?

每年长出一个足球场!崇明岛快连上启东了,它还能叫岛吗?

娱乐的硬糖吖
2026-03-30 08:00:05
祸不单行!网传一32岁男子创业、工作遇重创,赔20多万后干脆躺平

祸不单行!网传一32岁男子创业、工作遇重创,赔20多万后干脆躺平

火山詩话
2026-03-30 09:03:52
国家出手擒下的3名华人首富,看看他们干的事,根本不值得饶恕!

国家出手擒下的3名华人首富,看看他们干的事,根本不值得饶恕!

天马幸福的人生
2026-03-30 05:11:19
国家一级女演员陈丽云被逮捕!

国家一级女演员陈丽云被逮捕!

许三岁
2026-03-28 09:24:30
中国警告美国:勿将冲突战乱引入亚太

中国警告美国:勿将冲突战乱引入亚太

参考消息
2026-03-29 16:18:54
6+14+2!火箭新援太能抢了,打爆天才13号秀,670万签约大获成功

6+14+2!火箭新援太能抢了,打爆天才13号秀,670万签约大获成功

球盲姐
2026-03-30 10:20:19
2026-03-30 12:52:49

头条要闻

牛弹琴:伊朗越打越聪明了 一场更猛烈的风暴即将到来

头条要闻

牛弹琴:伊朗越打越聪明了 一场更猛烈的风暴即将到来

体育要闻

绝杀卫冕冠军后,他单手指天把胜利献给父亲

娱乐要闻

单依纯凌晨发长文道歉!李荣浩再回应

财经要闻

油价冲击,有些亚洲货币先扛不住了!

科技要闻

DeepSeek性能异常问题已解决,服务恢复

汽车要闻

理想i9要来了!外形似小号MEGA 能冲击高端纯电市场?

态度原创

房产
时尚
数码
艺术
公开课

房产要闻

32亿,三开三罄!谁在硬控海口楼市高端局?

来到1980的周也,好毛利兰

数码要闻

AMD Zen6来了!下代EPYC Venice工程样品曝光:三款测试平台齐亮相

艺术要闻

600 年前的「产亡孤魂」,藏着中国女性最痛的记忆

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版
×