网易首页 > 网易号 > 正文 申请入驻

上海人工智能实验室发布2023年度大模型公开评测榜单

0
分享至


作者|实习生 谢奕宁 编辑|蒋诗舟

1月30日,上海人工智能实验室发布大模型开源开放评测体系司南(OpenCompass2.0),同时公布了2023年度大模型公开评测榜单。

OpenCompass2.0 的测评对象为过去一年来主流开源模型和商业API模型,数量超过150个。测评榜单显示,GPT-4 Turbo在各项评测中均获最佳表现,智谱清言GLM-4、阿里巴巴Qwen-Max、百度文心一言4.0分列二到四位。

但在百分制的评测基准中,第一名的GPT-4 Turbo也仅达到61.8分的及格水平。此结果显示,复杂推理仍然是大模型面临的重要难题,需要进一步的技术创新来攻克。

测评榜单认为,智谱清言GLM-4、阿里巴巴Qwen-Max和百度文心一言4.0具有较为均衡和全面的性能,在语言和知识等基础能力维度上可以比肩GPT-4 Turbo。但短板也很明显,体现在推理、数学、代码、智能体等方面。GPT-4 Turbo在涉及复杂推理的场景虽然亦有提升空间,但已明显领先于国内的商业模型和开源模型。国内大模型要整体赶超GPT-4 Turbo等国际顶尖的大模型,在复杂推理、可靠地解决复杂问题等方面,仍需下大功夫。

测评榜单也指出,在中文场景下,国内模型对比海外模型具有优势。在中文语言理解、中文知识和中文创作上,部分模型实现了单个维度上对 GPT-4 Turbo 的超越。此外,开源模型,如Yi-34B-Chat,以相对更小的参数量,做到接近商用闭源模型的性能水平。

但总体而言,不少开源模型主客观性能仍和API模型存在相当程度的差距。

上海人工智能实验室表示,截至榜单发布时,部分新的大模型尚未纳入本次榜单。1月21日,猎户星空发布了开源百亿参数大模型Orion-14B。猎豹移动董事长兼CEO、猎户星空董事长傅盛表示,在企业应用场景中,该大模型在结合企业私有数据和应用时可实现千亿参数级别的模型效果。傅盛在接受《财经》新媒体采访时曾表示,智能的本质之一就是预测,而语言大模型的本质就是预测下一个词。在预测天气、寻找抗生素、探究蛋白质结构这些需要端到端计算的数据化领域,大模型优势明显。而在语言推理方面,由于语言高度抽象和压缩,语言目前是人类最后一块“遮羞布”,但这条路径AI未来也完全可以实现。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
日本女足国脚谷川萌萌子:我们来参加亚洲杯就是为了夺冠

日本女足国脚谷川萌萌子:我们来参加亚洲杯就是为了夺冠

懂球帝
2026-03-17 17:02:04
深夜,熔断!又见中概股暴涨

深夜,熔断!又见中概股暴涨

证券时报
2026-03-17 23:14:05
“5孩宝妈”创业翻车记:又蠢又努力,能闯这么大的祸!

“5孩宝妈”创业翻车记:又蠢又努力,能闯这么大的祸!

半耳聆
2026-03-17 17:47:19
国足大换血!曝邵佳一召入10名U23,3人首次入选,刘诚宇入围

国足大换血!曝邵佳一召入10名U23,3人首次入选,刘诚宇入围

奥拜尔
2026-03-17 21:29:35
《宝可梦》喷火龙形状薯片获吉尼斯记录 拍出8.7万刀

《宝可梦》喷火龙形状薯片获吉尼斯记录 拍出8.7万刀

3DM游戏
2026-03-17 12:21:09
“原拆原建”要来了?人民日报一天两文发声,首批项目已成功打样

“原拆原建”要来了?人民日报一天两文发声,首批项目已成功打样

专业聊房君
2026-03-15 13:21:53
正式官宣!阿德巴约又获奖,场均41.3分,怒怼质疑:再拿50分

正式官宣!阿德巴约又获奖,场均41.3分,怒怼质疑:再拿50分

球童无忌
2026-03-17 12:20:55
世预赛最终积分榜!比利时第1,中国女篮第2,巴西出局

世预赛最终积分榜!比利时第1,中国女篮第2,巴西出局

体育哲人
2026-03-17 22:53:14
四川警方通报15岁男生被撞身亡:在人行横道上被小车撞倒后又被对向车二次碾压 驾驶员均已被控制

四川警方通报15岁男生被撞身亡:在人行横道上被小车撞倒后又被对向车二次碾压 驾驶员均已被控制

闪电新闻
2026-03-17 21:26:38
杨颖和李晨的瓜爆了,信息量有点大...

杨颖和李晨的瓜爆了,信息量有点大...

草莓解说体育
2026-03-17 14:05:04
伊朗新任最高领袖受伤细节曝光

伊朗新任最高领袖受伤细节曝光

闪电新闻
2026-03-17 22:35:01
国内油价将大幅上涨

国内油价将大幅上涨

读本书
2026-03-16 22:06:15
西热力江带一家度假,他大腹便便,娇妻身材好,转型成功不缺钱

西热力江带一家度假,他大腹便便,娇妻身材好,转型成功不缺钱

大西体育
2026-03-17 21:17:48
三部门发布指导意见:允许基层开具最长12周用药长处方

三部门发布指导意见:允许基层开具最长12周用药长处方

每日经济新闻
2026-03-17 14:38:10
烟酒消费数据爆了!

烟酒消费数据爆了!

Mask的小酒馆
2026-03-17 07:35:18
玄学提醒:如果一个人还在穿着10年前的衣服,只说明3个问题

玄学提醒:如果一个人还在穿着10年前的衣服,只说明3个问题

洞读君
2026-03-04 14:30:12
穆杰塔巴乘机前往俄罗斯,由普京亲自安排

穆杰塔巴乘机前往俄罗斯,由普京亲自安排

烽火观天下
2026-03-17 12:35:20
真辣眼!火锅店门口成男女私人闺房!女孩正面曝光更多细节被扒出

真辣眼!火锅店门口成男女私人闺房!女孩正面曝光更多细节被扒出

天天热点见闻
2026-03-17 08:06:02
内塔尼亚胡称拉里贾尼身亡 美以将有更多行动

内塔尼亚胡称拉里贾尼身亡 美以将有更多行动

新华社
2026-03-17 23:23:01
悲催!深圳月入6万,3孩房子1000多万,月供4万,如今失业天塌了

悲催!深圳月入6万,3孩房子1000多万,月供4万,如今失业天塌了

火山詩话
2026-03-15 12:14:22
2026-03-18 01:31:00
财经新媒体 incentive-icons
财经新媒体
源于《财经》,广于财经。
4754文章数 34196关注度
往期回顾 全部

科技要闻

3万字实录|黄仁勋:每家公司都必须懂养虾

头条要闻

终极决战或来临 美军增派两栖攻击舰为登陆作战做准备

头条要闻

终极决战或来临 美军增派两栖攻击舰为登陆作战做准备

体育要闻

那个男人34岁拒绝买断 他要给状元当导师

娱乐要闻

姚晨曹郁官宣离婚,评论区全是冷嘲热讽

财经要闻

多款药品被曝线上线下价差巨大

汽车要闻

10分钟电量20%→97% 低温实测比亚迪闪充

态度原创

艺术
游戏
数码
手机
军事航空

艺术要闻

布莱斯笔下的美女,你绝对想不到的美丽!

下一个《博德之门3》?这款RPG刚试玩就被寄予厚望

数码要闻

荣耀新款游戏本将至:有望为WIN系列,猎人发光LOGO设计公布

手机要闻

苹果更新产品支持列表,首款Lightning接口iPhone已被列为停产

军事要闻

拉里贾尼生死罗生门:以军称其身亡 他本人社媒账号发信

无障碍浏览 进入关怀版