网易首页 > 网易号 > 正文 申请入驻

最新SuperCLUE测评出炉 ,商汤「日日新5.0」中文综合能力第一

0
分享至

5月21日,国内权威大模型测评机构SuperCLUE正式发布商汤“日日新5.0”(SenseChat V5)中文基准测评结果,以总分80.03分的优异成绩刷新国内最好成绩,并且在中文综合成绩上超越GPT-4-Turbo-0125。

值得注意的是,这是国内大模型首次在SuperCLUE中文基准测试中超越GPT-4 Turbo实现登顶。


「日日新5.0」文科能力国内外第一,理科能力国内第一

SuperCLUE综合性测评基准4月评测集,2194道多轮简答题,覆盖理科与文科两大能力,包括计算、逻辑推理、代码、长文本在内的基础十大任务。


在本次测评中,SenseChat V5在各项能力上表现较为均衡,尤其在长文本、生成创作、角色扮演、安全能力、工具使用上处于全球领先位置。

在文科任务上SenseChat V5表现十分出色,以82.20分取得国内外最高分;理科任务上SenseChat V5以76.78分取得国内最好成绩。


数据来源SuperCLUE

SenseChat V5在文科任务上表现出色,取得82.20的高分,国内外模型中排名第一,较GPT-4-Turbo-0125高4.40分。其中,知识百科(82.4)、长文本(79.2)、角色扮演(80.4)、语义理解(81.6)、生成创作(79.4)、传统安全(90.2)均刷新国内最好成绩。

SenseChat V5在理科任务上表现不俗,取得76.78分,国内模型中排名第一。其中,计算(80.6)、逻辑推理(73.8)、工具使用(80.8)均刷新国内最好成绩。

SuperCLUE:SenseChat V5所有能力均超过国内模型平均线

SuperCLUE工作组发现:将SenseChat V5与国内大模型平均得分对比,SenseChat V5在所有能力上均高于平均线,展现出较均衡的综合能力,尤其在计算(+16.15)、逻辑推理(+18.89)、代码(+19.06)、长文本(+21.16)能力上远高出平均线15分以上。


对比数据来源:SuperCLUE, 2024年4月30日

在与国外代表大模型对比时SuperCLUE的工作组发现,SenseChat V5在文科类中文任务上好于国外大模型,尤其在长文本、生成创作能力较为领先。

中国首个GPT-4 Turbo级别的大模型,商汤「日日新5.0」实现创新技术突破

4月23日,商汤科技正式发布全新大模型日日新5.0(SenseChat V5),采用混合专家架构(MoE),参数量高达6000亿,支持200K的上下文窗口。

此次SenseChat V5模型能力显著提升,其背后是训练数据的全面升级与训练方法的有效提升,以及商汤AI大装置SenseCore算力设施与算法设计的联合调优。


在数据方面,SenseChat V5采用了新一代数据生产管线,生产了10T tokens的高质量训练数据。通过多个模型进行数据的过滤和提炼,显著提升了预料质量和信息密度;基于精细聚类的均衡采样确保对世界知识覆盖的完整性。同时,SenseChat V5还大规模采用了思维型的合成数据(数千亿tokens量级),这对于模型在逻辑推理、数学和编程等方面的能力提升起到了关键作用。

SenseChat V5采用了自研的多阶段训练链路,包括三阶段预训练、双阶段SFT和在线RLHF。通过在每个阶段设定更加清晰聚焦的目标,实现更敏捷的调优,也避免了不同目标之间的相互干扰。

其中在预训练阶段,分阶段培养模型的基础语言和知识能力、长文建模能力、以及复杂逻辑推理能力(规模化采用合成数据);在 SFT 阶段,把任务指令遵循和对话体验优化分解到双阶段进行;在 RLHF 阶段,采用统一的多维度奖励模型和动态系统提示词对多维度偏好进行打分,从而更好地实现模型在多个维度和人类期望对齐。

大模型以“日日新”为名,商汤一直坚定朝向通用人工智能的目标前行,未来将继续遵循“尺度定律”路径逐渐清晰,前瞻探索最先进的大模型技术,突破数据与算力的限制,引领大模型的创新与落地。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
超4万亿地方债新增限额近日全部下达至地方,各地加快发债

超4万亿地方债新增限额近日全部下达至地方,各地加快发债

第一财经资讯
2024-06-18 10:00:13
西安赛格偶遇宋佳看上去比身旁20多岁的小姑娘还要年轻不少

西安赛格偶遇宋佳看上去比身旁20多岁的小姑娘还要年轻不少

小米虫侃人物
2024-06-18 10:36:47
绿军总结:18冠超湖人历史第一成篮坛皇马 16胜3负夺冠证统治力

绿军总结:18冠超湖人历史第一成篮坛皇马 16胜3负夺冠证统治力

醉卧浮生
2024-06-18 10:59:57
专家:对俄战争已然失败

专家:对俄战争已然失败

俄罗斯卫星通讯社
2024-01-22 15:13:11
网传疑使馆车在小区违章停车堵路,某女子称懂什么叫外交豁免权吗

网传疑使馆车在小区违章停车堵路,某女子称懂什么叫外交豁免权吗

火山诗话
2024-06-18 13:53:13
原班人马再来一年?绿军今夏无主力合同到期 薪资已超第2土豪线

原班人马再来一年?绿军今夏无主力合同到期 薪资已超第2土豪线

直播吧
2024-06-18 11:53:06
上海恒隆见到江疏影了,37岁的她也太年轻了

上海恒隆见到江疏影了,37岁的她也太年轻了

小米虫侃人物
2024-06-18 10:29:49
开发商卖资产还债,深圳32套别墅上架法拍引发市场关注

开发商卖资产还债,深圳32套别墅上架法拍引发市场关注

南方都市报
2024-06-17 22:00:18
法媒:姆巴佩确定无缘下轮对阵荷兰,甚至可能至少1/4决赛才能复出

法媒:姆巴佩确定无缘下轮对阵荷兰,甚至可能至少1/4决赛才能复出

直播吧
2024-06-18 17:12:16
被大49岁的谢贤养了12年,拿2000万分手费走人的coco,如今怎样了

被大49岁的谢贤养了12年,拿2000万分手费走人的coco,如今怎样了

闻星盼夏
2024-06-17 18:50:02
三傻大闹欧洲杯,德布劳内也带不动!卢卡库上演新一季欢乐喜剧人

三傻大闹欧洲杯,德布劳内也带不动!卢卡库上演新一季欢乐喜剧人

中国足球的那些事儿
2024-06-18 02:38:55
有早退的,有不签字的,还没写明俄罗斯“侵略”,这和平峰会开得……

有早退的,有不签字的,还没写明俄罗斯“侵略”,这和平峰会开得……

新民晚报
2024-06-17 13:23:47
普京:俄罗斯朝鲜将发展摆脱西方控制贸易和结算体系

普京:俄罗斯朝鲜将发展摆脱西方控制贸易和结算体系

和讯网
2024-06-18 11:13:48
赴美AI调研总结:中美科技生态反差,人家拼命搞创新,我们拼命搞低价

赴美AI调研总结:中美科技生态反差,人家拼命搞创新,我们拼命搞低价

小星球探索
2024-06-17 14:55:09
南方医科大处分救人老师后续:俞莉已被停诊,校方二次回应太教条

南方医科大处分救人老师后续:俞莉已被停诊,校方二次回应太教条

六毛朵朵
2024-06-17 16:31:15
美国数学博士:姜萍没有造假,不可能抄现成的答案

美国数学博士:姜萍没有造假,不可能抄现成的答案

书中自有颜如玉
2024-06-18 12:09:27
尘埃落定!朱婷告别中国女排谜底揭晓,球迷们拍手叫好,蔡斌懂了

尘埃落定!朱婷告别中国女排谜底揭晓,球迷们拍手叫好,蔡斌懂了

林子说事
2024-06-18 12:21:17
1965年,一等功臣杀人被判死刑,许世友不顾前途也要保他一命

1965年,一等功臣杀人被判死刑,许世友不顾前途也要保他一命

历史龙元阁
2024-06-17 16:05:44
美国顶级预言家再出手!直言2024美日中命运!这个岛最先出事!

美国顶级预言家再出手!直言2024美日中命运!这个岛最先出事!

飞云如水
2024-06-09 21:53:34
湖南省汨罗市卫生健康局党组成员、副局长许敦武主动投案接受审查调查

湖南省汨罗市卫生健康局党组成员、副局长许敦武主动投案接受审查调查

鲁中晨报
2024-06-18 15:07:03
2024-06-18 17:48:49
CQ智播汇
CQ智播汇
传播美好智能生活体验,分享新鲜酷炫产品。
636文章数 16关注度
往期回顾 全部

科技要闻

第一批小米车主,已经开始卖车了

头条要闻

卸任7年后 主动交代问题的市政协原主席被逮捕

头条要闻

卸任7年后 主动交代问题的市政协原主席被逮捕

体育要闻

对于凯尔特人来说 谁是MVP根本不重要

娱乐要闻

被曝新恋情,张碧晨王琳凯发声辟谣

财经要闻

官方:税务部门没有倒查30年的安排

汽车要闻

全球最低价 现代IONIQ 5N预售价39.88万

态度原创

房产
旅游
艺术
教育
手机

房产要闻

净吸纳量连续两年TOP3!这座海口顶级写字楼,用实力上大分!

旅游要闻

直航加免签,利好中国—古巴旅游往来

艺术要闻

穿越时空的艺术:《马可·波罗》AI沉浸影片探索人类文明

教育要闻

“数学天才”姜萍接受采访,竟不知谢惠民的数学分析是什么

手机要闻

大战骁龙8 Gen4!天玑9400旗舰10月见:vivo要首发

无障碍浏览 进入关怀版