网易首页 > 网易号 > 正文 申请入驻

超越GPT-4 Turbo,国产大模型首次排名榜首!最新SuperCLUE测评出炉

0
分享至

OpenAI长期霸榜的SuperCLUE(中文大模型测评基准),有了新“头雁”。

自SuperCLUE问世以来,GPT-4、GPT-4 Turbo先后六次占据榜首位置。最近,商汤日日新5.0(SenseChat V5)“申请出战”,以总分80.03分的优异成绩刷新国内最好成绩,并且在中文综合成绩上超越GPT-4-Turbo-0125——这也是国内大模型首次在SuperCLUE中文基准测试中超越GPT-4 Turbo实现登顶。


采访对象供图(下同)

SuperCLUE综合性测评基准4月评测集,含2194道多轮简答题,覆盖理科与文科两大能力,包括计算、逻辑推理、代码、长文本在内的基础十大任务。在本次测评中,SenseChat V5在各项能力上表现较为均衡,尤其在长文本、生成创作、角色扮演、安全能力、工具使用上处于全球领先位置——

SenseChat V5在文科任务上表现出色,取得82.20的高分,国内外模型中排名第一,较GPT-4-Turbo-0125高4.40分。其中,知识百科(82.4)、长文本(79.2)、角色扮演(80.4)、语义理解(81.6)、生成创作(79.4)、传统安全(90.2)均刷新国内最好成绩。

SenseChat V5在理科任务上表现不俗,取得76.78分,国内模型中排名第一,较GPT-4-Turbo-0125低4.35分,还有一定提升空间。其中,计算(80.6)、逻辑推理(73.8)、工具使用(80.8)均刷新国内最好成绩;在代码能力上还有一定优化空间。


SuperCLUE工作组发现:将SenseChat V5与国内大模型平均得分对比,SenseChat V5在所有能力上均高于平均线,展现出较均衡的综合能力,尤其在计算(+16.15)、逻辑推理(+18.89)、代码(+19.06)、长文本(+21.16)能力上远高出平均线15分以上。

在与国外代表大模型对比时SuperCLUE的工作组发现,SenseChat V5在文科类中文任务上好于国外大模型,尤其在长文本、生成创作能力较为领先。


4月23日,商汤科技正式发布全新大模型日日新5.0(SenseChat V5),采用混合专家架构(MoE),参数量高达6000亿,支持200K的上下文窗口。此次SenseChat V5模型能力显著提升,其背后是训练数据的全面升级与训练方法的有效提升,以及商汤AI大装置算力设施与算法设计的联合调优。

新民晚报记者 郜阳

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
美国固态电池开始B测!391Wh/kg续航1000公里,奔驰已收到样品

美国固态电池开始B测!391Wh/kg续航1000公里,奔驰已收到样品

徐德文科学频道
2024-06-17 15:29:21
太难了!网传有汽车品牌窘迫到连媒体的500块车马费,都要拖欠…

太难了!网传有汽车品牌窘迫到连媒体的500块车马费,都要拖欠…

火山诗话
2024-06-17 16:22:21
新合同3年8000万!汤普森,哭了!勇士已经仁至义尽……

新合同3年8000万!汤普森,哭了!勇士已经仁至义尽……

篮球实战宝典
2024-06-17 14:37:29
警犬被偷?云南瑞丽一则寻狗启事引关注,回应:真的,是特警大队的

警犬被偷?云南瑞丽一则寻狗启事引关注,回应:真的,是特警大队的

潇湘晨报
2024-06-17 15:25:12
牛津大学数学系博士谈姜萍数学成绩的真实性,数学界不乏扫地僧

牛津大学数学系博士谈姜萍数学成绩的真实性,数学界不乏扫地僧

娱乐的硬糖吖
2024-06-17 14:46:23
中超旧将!斯坦丘远射世界波,轰欧洲杯处子球,破246天球荒

中超旧将!斯坦丘远射世界波,轰欧洲杯处子球,破246天球荒

奥拜尔
2024-06-17 21:35:52
游客发帖称海南潜水遭弃海中2小时游回岸边,万宁文旅局:经调查确有问题

游客发帖称海南潜水遭弃海中2小时游回岸边,万宁文旅局:经调查确有问题

上游新闻
2024-06-17 14:29:42
男子买房11年未入住:门锁被邻居替换,屋内堆满杂物阳台成菜园 起诉对方索赔

男子买房11年未入住:门锁被邻居替换,屋内堆满杂物阳台成菜园 起诉对方索赔

红星新闻
2024-06-17 17:52:10
王思聪回应私生女事件,网友炸开了锅!

王思聪回应私生女事件,网友炸开了锅!

拾点先生
2024-06-15 19:00:02
天津自助餐风波:15元吃出“天价”时间,老板发飙轰客

天津自助餐风波:15元吃出“天价”时间,老板发飙轰客

历史有些冷
2024-06-16 20:30:02
处罚俞莉博士的医学院,膝盖跪肿了

处罚俞莉博士的医学院,膝盖跪肿了

宾语观世
2024-06-17 10:38:39
每月工资仅两三千!金融从业者举报某证券公司:暗地修改其薪酬数据,工资变为负数

每月工资仅两三千!金融从业者举报某证券公司:暗地修改其薪酬数据,工资变为负数

可达鸭面面观
2024-06-17 21:22:29
6月17日俄乌最新:今年以来最关键的一战

6月17日俄乌最新:今年以来最关键的一战

西楼饮月
2024-06-17 17:27:31
两位原副部级干部,被“双开”(附简历)

两位原副部级干部,被“双开”(附简历)

鲁中晨报
2024-06-17 12:59:04
是骡子是马拉出来遛遛:天才中专生姜萍被疑作弊,数学月考仅85分

是骡子是马拉出来遛遛:天才中专生姜萍被疑作弊,数学月考仅85分

瑜说还休
2024-06-17 12:19:02
A股:刚刚,证监局出手,事关私募量化!明天的A股将要直接起飞?

A股:刚刚,证监局出手,事关私募量化!明天的A股将要直接起飞?

兵哥闲聊
2024-06-17 18:04:40
菲方提交“南海外大陆架划界案”,外交部:侵犯中国主权

菲方提交“南海外大陆架划界案”,外交部:侵犯中国主权

澎湃新闻
2024-06-17 16:06:27
关于死亡,这可能是一篇颠覆你认知的文章!

关于死亡,这可能是一篇颠覆你认知的文章!

尚曦读史
2024-04-05 10:52:47
养老金上调3%:给你公式算算你能涨多少,呼声:给企业老人多涨点

养老金上调3%:给你公式算算你能涨多少,呼声:给企业老人多涨点

大风文字
2024-06-17 18:46:14
复旦教授称95%的数学专业学生写不出姜萍那样的答卷,校方回应“她考621分为何上了中专”

复旦教授称95%的数学专业学生写不出姜萍那样的答卷,校方回应“她考621分为何上了中专”

极目新闻
2024-06-17 10:50:44
2024-06-17 21:56:49
新民晚报
新民晚报
新民晚报选择上海的理由
453611文章数 540488关注度
往期回顾 全部

科技要闻

为什么你的iPhone,肯定用不上"苹果AI"?

头条要闻

泽连斯基:乌方从未说过中国是敌人 希望和中国做朋友

头条要闻

泽连斯基:乌方从未说过中国是敌人 希望和中国做朋友

体育要闻

豪华阵容,原始战术 英格兰10亿天团就这?

娱乐要闻

上影节红毯:倪妮好松弛,娜扎吸睛

财经要闻

人均养老金上调3% 怎么年轻人吵翻了?

汽车要闻

传奇新篇章 全新一代大众迈腾来了

态度原创

房产
艺术
时尚
手机
公开课

房产要闻

强!全国第三!海口房价正在止跌!

艺术要闻

穿越时空的艺术:《马可·波罗》AI沉浸影片探索人类文明

钟姐,血气十足才是顶级状态!

手机要闻

iOS 18测试版开始支持基本的RCS功能 但有一些需要注意的地方

公开课

近视只是视力差?小心并发症

无障碍浏览 进入关怀版