网易首页 > 网易号 > 正文 申请入驻

上海人工智能实验室发布2023年度大模型公开评测榜单

0
分享至


作者|实习生 谢奕宁 编辑|蒋诗舟

1月30日,上海人工智能实验室发布大模型开源开放评测体系司南(OpenCompass2.0),同时公布了2023年度大模型公开评测榜单。

OpenCompass2.0 的测评对象为过去一年来主流开源模型和商业API模型,数量超过150个。测评榜单显示,GPT-4 Turbo在各项评测中均获最佳表现,智谱清言GLM-4、阿里巴巴Qwen-Max、百度文心一言4.0分列二到四位。

但在百分制的评测基准中,第一名的GPT-4 Turbo也仅达到61.8分的及格水平。此结果显示,复杂推理仍然是大模型面临的重要难题,需要进一步的技术创新来攻克。

测评榜单认为,智谱清言GLM-4、阿里巴巴Qwen-Max和百度文心一言4.0具有较为均衡和全面的性能,在语言和知识等基础能力维度上可以比肩GPT-4 Turbo。但短板也很明显,体现在推理、数学、代码、智能体等方面。GPT-4 Turbo在涉及复杂推理的场景虽然亦有提升空间,但已明显领先于国内的商业模型和开源模型。国内大模型要整体赶超GPT-4 Turbo等国际顶尖的大模型,在复杂推理、可靠地解决复杂问题等方面,仍需下大功夫。

测评榜单也指出,在中文场景下,国内模型对比海外模型具有优势。在中文语言理解、中文知识和中文创作上,部分模型实现了单个维度上对 GPT-4 Turbo 的超越。此外,开源模型,如Yi-34B-Chat,以相对更小的参数量,做到接近商用闭源模型的性能水平。

但总体而言,不少开源模型主客观性能仍和API模型存在相当程度的差距。

上海人工智能实验室表示,截至榜单发布时,部分新的大模型尚未纳入本次榜单。1月21日,猎户星空发布了开源百亿参数大模型Orion-14B。猎豹移动董事长兼CEO、猎户星空董事长傅盛表示,在企业应用场景中,该大模型在结合企业私有数据和应用时可实现千亿参数级别的模型效果。傅盛在接受《财经》新媒体采访时曾表示,智能的本质之一就是预测,而语言大模型的本质就是预测下一个词。在预测天气、寻找抗生素、探究蛋白质结构这些需要端到端计算的数据化领域,大模型优势明显。而在语言推理方面,由于语言高度抽象和压缩,语言目前是人类最后一块“遮羞布”,但这条路径AI未来也完全可以实现。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
风波落幕!曾琦医生回归专家栏,专属坐诊时间正式公示

风波落幕!曾琦医生回归专家栏,专属坐诊时间正式公示

老猫观点
2026-06-24 15:30:58
A股“股王”再创历史新高,上市仅两个月暴涨超3100%|快讯

A股“股王”再创历史新高,上市仅两个月暴涨超3100%|快讯

华夏时报
2026-06-24 14:20:04
快讯!郑丽文:谈统一是不切实际的!

快讯!郑丽文:谈统一是不切实际的!

故事终将光明磊落
2026-06-24 10:25:32
美联储再次举起带血镰刀,用当年洗劫亚洲那套,来收割全球财富!

美联储再次举起带血镰刀,用当年洗劫亚洲那套,来收割全球财富!

史料布籍
2026-06-24 11:34:54
腾讯真搬走了,科兴房东天塌了?1.4万人已上企鹅岛

腾讯真搬走了,科兴房东天塌了?1.4万人已上企鹅岛

说故事的阿袭
2026-06-22 19:00:44
炒冷饭的《抓特务》,还是大院子弟伤痕那一套

炒冷饭的《抓特务》,还是大院子弟伤痕那一套

新潮沉思录
2026-06-24 00:52:49
11年收割200亿,坑惨10万家庭,这个金融骗子终食恶果!

11年收割200亿,坑惨10万家庭,这个金融骗子终食恶果!

青眼财经
2026-06-24 08:00:23
中国银行逃税23.67亿被通报

中国银行逃税23.67亿被通报

虎视财经
2026-06-24 14:37:55
江西省委常委会召开会议 坚决拥护党中央对尹建业的处分决定

江西省委常委会召开会议 坚决拥护党中央对尹建业的处分决定

环球网资讯
2026-06-24 16:37:11
看完看台上的七位大神,再看场上的巴西队员,巴西球迷心凉了半截

看完看台上的七位大神,再看场上的巴西队员,巴西球迷心凉了半截

合赞历史
2026-06-24 16:00:09
谎称阴阳双修可化煞,江湖假大师性侵女子及其15岁的女儿,法院从重判刑九年

谎称阴阳双修可化煞,江湖假大师性侵女子及其15岁的女儿,法院从重判刑九年

扬子晚报
2026-06-24 07:36:38
反超葡萄牙登顶!迪亚斯2球被吹铁卫建功,哥伦比亚1-0民主刚果

反超葡萄牙登顶!迪亚斯2球被吹铁卫建功,哥伦比亚1-0民主刚果

钉钉陌上花开
2026-06-24 11:55:45
河北保安和业主起冲突!被打到脑死亡,内幕曝光太炸裂,警方介入

河北保安和业主起冲突!被打到脑死亡,内幕曝光太炸裂,警方介入

天天热点见闻
2026-06-24 12:55:52
俄截肢老兵持刀对峙征兵人员,家属拦车痛哭哀求,前线缺口巨大

俄截肢老兵持刀对峙征兵人员,家属拦车痛哭哀求,前线缺口巨大

译言
2026-06-23 08:17:56
SpaceX式革新!远景GobiX解决AI“吃电”难题

SpaceX式革新!远景GobiX解决AI“吃电”难题

智谷趋势
2026-06-24 11:18:18
小米紧急致歉:研发人员测试时操作失误!网友普法:根据《中华人民共和国突发事件应对法》和《治安管理处罚法》 ...

小米紧急致歉:研发人员测试时操作失误!网友普法:根据《中华人民共和国突发事件应对法》和《治安管理处罚法》 ...

大白聊IT
2026-06-24 14:08:52
国台办回应郑丽文访美表态

国台办回应郑丽文访美表态

中国网
2026-06-24 13:52:23
北京人又不是韭菜,凭什么给你走面儿?

北京人又不是韭菜,凭什么给你走面儿?

常识群
2026-06-24 12:56:17
乌克兰摧毁莫斯科的太空通信中心!重创俄军火车站

乌克兰摧毁莫斯科的太空通信中心!重创俄军火车站

项鹏飞
2026-06-23 20:08:08
大幅跳水!2026广东高考分数线出炉,数据和原因详析

大幅跳水!2026广东高考分数线出炉,数据和原因详析

史海流年号
2026-06-24 11:35:55
2026-06-24 17:40:49
财经新媒体 incentive-icons
财经新媒体
源于《财经》,广于财经。
4864文章数 34292关注度
往期回顾 全部

科技要闻

豆包专业版上线:定价68-500元每月

头条要闻

女子身着深航制服戴国航航徽推销储值卡 唐山机场回应

头条要闻

女子身着深航制服戴国航航徽推销储值卡 唐山机场回应

体育要闻

字母哥,会把凯尔特人拆了吗?

娱乐要闻

向佐向佑兄弟合体直播!母子终于和解

财经要闻

爆料人:如果我错了,赔偿坐牢都接受

汽车要闻

施鹏泽:为什么奥迪E7X强调座舱气味安全?

态度原创

亲子
房产
家居
游戏
数码

亲子要闻

杨守伟:让每一个稚嫩的心灵向阳生长

房产要闻

今年13.7万,明年15.4万!海南教育,正在疯狂扩容!

家居要闻

绿意盎然 自然之境

正版IP授权,玩法大胆创新,《诡秘之主》游戏全是惊喜!

数码要闻

Creative创新推出XF1桌面音箱:内置高解析度DAC、支持LDAC蓝牙

无障碍浏览 进入关怀版