网易首页 > 网易号 > 正文 申请入驻

智源评测了100多个大模型:头部模型接近国际一流,但还存在“偏科”

0
分享至


2024年的国内大模型厂商在完成对OpenAI的技术祛魅后,借助开源平台,密集发布大模型产品,同时自带"打榜"动作,证明自身技术实力。

在智源研究院院长王仲远看来,目前大模型行业百花齐放的同时,也面临良莠不齐的问题,"我自身作为AI研究者,有时也分不清楚到底哪个强哪个弱。"王仲远称。

另外,目前绝大部分的评测都是"开卷考",根据已有题库针对性训练相应能力,最终暂时得出高于同行的测试结果。这带来的主要问题就是厂商直接开卷刷题,使得"打榜"行为无法客观公正地反映大模型之间的技术差距。

5月17日,智源研究院对外推出智源评测体系,发布并解读国内外140余个开源和商业闭源的语言及多模态大模型全方位能力评测结果。2018年11月14日,在科技部和北京市委市政府的指导和支持下,依托北京大学、清华大学、中国科学院、百度、小米、字节跳动等北京人工智能领域优势单位,共建了新型研究机构北京智源人工智能研究院。

本次智源评测使用20余个数据集、超8万道考题,其中,主观题4000余道,均来源于自建原创未公开并保持高频迭代的主观评测集,严格校准打分标准,采取多人独立匿名评分、严格质检与抽检相结合的管理机制,降低主观偏差的影响。

智源分别从主观、客观两个维度考察了语言模型的简单理解、知识运用、推理能力、数学能力、代码能力、任务解决、安全与价值观七大能力,针对多模态模型主要评估了多模态理解和生成能力。评测结果显示,在中文语境下,国内头部语言模型的综合表现已接近国际一流水平,但仍存在着能力发展不均衡的情况。例如在多模态理解图文问答任务上,开闭源模型平分秋色,国产模型表现突出。

目前行业内,关于开源还是闭源大模型技术实力更强的讨论是热点之一,对此,采访中,智源人工智能研究院副院长兼总工程师林咏华对第一财经记者表示,到底开源好还是闭源好这个问题目前没有一个定论,因为很难保证闭源模型背后到底是一个模型还是多个模型,甚至可能背后的模型还连接着检索。

另外评测结果显示,国产多模态模型在中文语境下的文生图能力与国际一流水平差距较小。多模态模型的文生视频能力上,对比各家公布的演示视频长度和质量,Sora有明显优势,其他开放评测的文生视频模型中,国产模型PixVerse表现优异。

由于安全与价值观对齐是模型产业落地的关键,但海外模型与国内模型在该维度存在差异,因此语言模型主客观评测的总体排名不计入该单项分数。语言模型主观评测结果显示,在中文语境下,字节跳动豆包Skylark2、OpenAI GPT-4位居第一、第二,国产大模型更懂中国用户。在语言模型客观评测中,OpenAI GPT-4、百川智能Baichuan3位列第一、第二。百度文心一言4.0、智谱华章GLM-4和月之暗面Kimi均进入语言模型主客观评测前五。

多模态理解模型客观评测结果显示,图文问答方面,阿里巴巴通义Qwen-vl-max与上海人工智能实验室InternVL-Chat-V1.5先后领先于OpenAI GPT-4,LLaVA-Next-Yi-34B和上海人工智能实验室Intern-XComposer2-VL-7B紧随其后。

多模态生成模型文生图评测结果显示,OpenAI DALL-E3位列第一,智谱华章CogView3、Meta-Imagine分居第二、第三,百度文心一格、字节跳动doubao-Image次之。多模态生成模型文生视频评测结果显示,OpenAI Sora、Runway、爱诗科技PixVerse、Pika、腾讯VideoCrafter-V2位列前五。


当前,大模型的发展具备了通用性,在逻辑推理能力上有显著提升,日趋接近人脑的特征。因此,在海淀区教委支持下,智源研究院联合与海淀区教师进修学校对齐学生测验方式,考察大模型与人类学生的学科水平差异。智源评测发现,模型在综合学科能力上与海淀学生平均水平仍有差距,普遍存在文强理弱的情况,并且对图表的理解能力不足,大模型未来有很大的提升空间。

北京市海淀区教师进修学校校长姚守梅解读大模型K12学科测试结果时指出,在语文、历史等人文学科的考试中,模型欠缺对文字背后的文化内涵以及家国情怀的理解。面对历史地理综合题时,模型并不能像人类考生一样有效识别学科属性。相较于简单的英语题,模型反而更擅长复杂的英语题。解理科题目时,模型会出现以超出年级知识范围外的方法解题的情况。当出现无法理解的考题时,模型依然存在明显的"幻觉"。

中国传媒大学智能媒体计算实验室负责人史萍教授表示,相较文本,视频的主观评价复杂度极高。自动化指标无法完全捕捉模型生成的质量,更无法对生成视频的真实性、图文语义一致性等进行量化。因此,需要系统化构建针对文生视频模型的主观评价体系。

就整个大模型行业而言,不再"打榜"、启动价格战成为新的趋势。火山引擎总裁谭待表示,"今年行业不再比拼参数规模了,因为大家都‘悟’了。"

对此,王仲远对第一财经记者表示,未来大模型行业会向两个方向发展:顶尖大模型继续追求AGI目标,但这也会带来算力、数据等方面的消耗。因此另一波从业者会去追求改变行业与产业的落地机会,尽可能地降低成本。所以最近各大厂商在发布大模型产品的同时开始"卷"单价了。

在王仲远看来,降价对推动产业化进步会带来促进作用,利于厂商尽快地占领市场,再进行下一步动作的布局,但目前的大模型能力也在快速提升过程中,远未达到天花板的程度。如果产品价格低于实际成本,有可能会扰乱整个市场。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
陈丹青:从来没有一个时代像今天这样,去鼓励虚荣,从来没有过!

陈丹青:从来没有一个时代像今天这样,去鼓励虚荣,从来没有过!

世态言凉
2024-05-29 17:16:32
女演员的长相多重要?《庆余年》两季林婉儿29岁和34岁,差距明显

女演员的长相多重要?《庆余年》两季林婉儿29岁和34岁,差距明显

娱乐八卦木木子
2024-06-01 18:14:04
安切洛蒂:夺冠从来没有顺理成章,决赛比想象的更加艰难

安切洛蒂:夺冠从来没有顺理成章,决赛比想象的更加艰难

直播吧
2024-06-02 05:44:13
该拘拘、该判判!男子将车堵出口拒不挪车还挑衅,原因查明太冤枉

该拘拘、该判判!男子将车堵出口拒不挪车还挑衅,原因查明太冤枉

一口娱乐
2024-06-01 22:51:26
精致的脸庞、漂亮的可爱

精致的脸庞、漂亮的可爱

娱乐八卦木木子
2024-05-10 17:37:22
反击有结果了!老美宣布“解禁”,外媒:可笑至极

反击有结果了!老美宣布“解禁”,外媒:可笑至极

小蘑菇壹号
2024-05-31 16:44:07
4-12完成超级大逆转!日本女排3-1美洲劲旅,仅落后中国队3.23分

4-12完成超级大逆转!日本女排3-1美洲劲旅,仅落后中国队3.23分

开心体育站
2024-06-01 18:40:11
中国经济增速接近美国2倍,为什么财政收入美国增长,我们下降?

中国经济增速接近美国2倍,为什么财政收入美国增长,我们下降?

火星宏观
2024-05-31 06:42:03
真被郭台铭说对了?富士康出走“不赏饭”后,营收反创新高

真被郭台铭说对了?富士康出走“不赏饭”后,营收反创新高

小马哥谈体育
2024-06-01 17:32:02
霸气,李盈莹强势站队朱婷!把话说到这份上了,蔡斌还不换首发吗

霸气,李盈莹强势站队朱婷!把话说到这份上了,蔡斌还不换首发吗

嘴炮体坛
2024-06-01 10:39:48
安切洛蒂:中场休息时说了维尼修斯几句,上半场我们有点懒散

安切洛蒂:中场休息时说了维尼修斯几句,上半场我们有点懒散

懂球帝
2024-06-02 05:44:12
欧冠之王!皇马15次捧杯傲视全欧,1队=英格兰6队总和,第2仅7冠

欧冠之王!皇马15次捧杯傲视全欧,1队=英格兰6队总和,第2仅7冠

绿茵舞着
2024-06-02 05:39:52
2-0!皇马斩获第十五座欧冠!两次致命失误,多特蒙德自毁长城

2-0!皇马斩获第十五座欧冠!两次致命失误,多特蒙德自毁长城

体育世界
2024-06-02 05:43:29
甘肃一女博士刚生完孩子,丈夫就冲进房间将其割喉:大快人心

甘肃一女博士刚生完孩子,丈夫就冲进房间将其割喉:大快人心

青丝人生
2024-05-24 20:04:21
通报!赶紧卸载

通报!赶紧卸载

环球时报新闻
2024-06-01 23:01:22
中方突然下达“驱逐令”,划下大片禁航区,西方担心事情发生了!

中方突然下达“驱逐令”,划下大片禁航区,西方担心事情发生了!

绝对军评
2024-06-01 00:30:03
就业率98.1%!日本应届生迎来就业“反选时代”,日企“抢人大战”:上班就送100万日元,一年有129天休假【附大学生就业现状分析】

就业率98.1%!日本应届生迎来就业“反选时代”,日企“抢人大战”:上班就送100万日元,一年有129天休假【附大学生就业现状分析】

前瞻网
2024-05-31 19:50:16
世联最新战报:3比2巴西逆转日本,中国女排再迎喜讯

世联最新战报:3比2巴西逆转日本,中国女排再迎喜讯

开心体育站
2024-06-01 13:29:22
少妇离婚后,阴差阳错和妹夫住进情侣房,原来一切都是妹妹的阴谋

少妇离婚后,阴差阳错和妹夫住进情侣房,原来一切都是妹妹的阴谋

想养大熊猫
2024-05-13 12:01:26
大s哭了!儿童节箖箖与奶奶张兰连线,希望奶奶赚100w,对话温馨

大s哭了!儿童节箖箖与奶奶张兰连线,希望奶奶赚100w,对话温馨

圈里的甜橙子
2024-06-01 23:35:43
2024-06-02 06:00:49
第一财经资讯
第一财经资讯
第一财经官方账号
191280文章数 614527关注度
往期回顾 全部

科技要闻

余承东:不卷价格!雷军:将双班制生产!

头条要闻

小伙投资300万在瑞典开拉面馆生意火爆 1碗面卖100元

头条要闻

小伙投资300万在瑞典开拉面馆生意火爆 1碗面卖100元

体育要闻

女排最强2主攻合体 合砍40分打懵泰国

娱乐要闻

白玉兰提名:胡歌、范伟争视帝

财经要闻

实锤!普华永道,危!

汽车要闻

吉利银河E5 Flyme Auto智能座舱首发

态度原创

房产
数码
艺术
游戏
公开课

房产要闻

重磅!琼海出台楼市新政:住房出租、挂牌计划出售,都可减套数!

数码要闻

消息称 AMD 锐龙 9000 系列 Zen5 桌面处理器将于 7 月上市

艺术要闻

穿越时空的艺术:《马可·波罗》AI沉浸影片探索人类文明

《军团要塞2》机器人泛滥 超14万人请愿V社重视一下

公开课

近视只是视力差?小心并发症

无障碍浏览 进入关怀版