网易首页 > 网易号 > 正文 申请入驻

智源研究院院长王仲远:五年内或迎来“杀手级”C端大模型应用

0
分享至

让海淀老师参与打造大模型评测体系,是同样位于海淀的北京智源人工智能研究院最新创举。

众所周知,如今整个大模型行业呈现出“百花齐放”的发展态势,各种各样针对大模型的评测也层出不穷。不过,绝大多数评测都以“开卷考”形式进行,让很多大模型有了刷榜、刷题的机会,已经无法客观公正地反映模型的真实水平。

那么,为更好地推动国内AI大模型的发展,有必要出现一个中立、客观、公正的第三方机构,为行业交出一份全面的大模型评测“答卷”。

2024年5月17日,智源研究院举办大模型评测发布会。会上,正式发布对国内外140余个开源和闭源的语言及多模态大模型全方位能力评测结果。

据了解,本次评测主要从主观和客观两个层面入手,分别对语言模型和多模态模型进行了考察。前者涵盖简单理解、知识运用、推理能力、数学能力、代码能力、任务解决、安全与价值观七大能力;后者包括多模态理解和生成能力。

从语言模型来看:

  • 主观评测结果显示:在中文语境下,字节跳动豆包Skylark2和OpenAI GPT-4位居前两名。
  • 客观评测结果显示:GPT-4和百川智能Baichuan3位列前两名。百度文心一言4.0、智谱华章GLM-4和月之暗面Kimi,进入语言模型主客观评测前五名。



(来源:资料图)

从多模态模型来看:

  • 主观评测结果显示:在文生图评测上,OpenAI DALL-E3、智谱华章CogView3、Meta Imagine位居前三名,百度文心一格和字节跳动doubao-Image紧随其后;在文生视频评测上,OpenAI Sora、Runway、爱诗科技PixVerse、Pika和腾讯VideoCrafter-V2位列前五名。
  • 客观评测结果显示:在图文问答上,阿里巴巴通义Qwen-vl-max与上海人工智能实验室InternVL-Chat-V1.5位居前两名,GPT-4、LLaVA-Next-Yi-34B和上海人工智能实验室Intern-XComposer2-VL-7B紧随其后。



图丨文生图模型的客观评测指标与主观感受差异巨大,有失效迹象,因此排名以主观评测为准(来源:资料图)

总的来看,国内头部语言模型的综合表现接近国际一流水平,但仍存在发展不均衡的情况。在多模态理解图文问答上,开闭源模型平分秋色,国产模型表现突出。

在中文语境下,国产多模态模型的文生图能力和国际一流水平之间存在较小差距。在多模态文生视频上,Sora优势明显,国产模型PixVerse在其他开放评测的文生视频模型中表现优异。

基于科学、权威、公正、开放的大模型评测体系进行

事实上,上述评测是智源研究院基于科学、权威、公正、开放的大模型评测体系进行的。

2023年6月,其与多所高校共建的FlagEval大模型评测平台正式上线,截至目前已经完成1000多次覆盖全球多个开源大模型的评测。

据了解,本次模型评测采取客观评测统一规则与主观评测多重校验打分相结合的方法。另外,还使用20余个数据集、超8万道考题,包括与合作单位共建和智源自建的多个评测数据集。

对于该评测而言,“科学、权威、公正、开放”是其最高纲领。

“在今天的结果发布之前,我作为十几年的AI行业从业者,都已经无法看清形势。媒体和普通用户更没有辨别能力,这并不利于整个行业的发展。为确保本次评测绝对公平公正,我们一开始就确定,所有的工作都围绕这四个关键词展开。”智源研究院院长王仲远表示。

显然,随着大模型的不断发展,相应的评测也应该及时更新迭代。因此,从长期视角出发,智源希望联合生态伙伴共同建立良好的评测环境,实现轻量级或固定评测榜单实时或按月发布、重量级榜单半年发布一次的目标。

“这样才能真正看到模型的发展速度和变化,才能对行业和技术发展带来真正的帮助和借鉴。”王仲远说。

在此基础上,为推动模型评测结果的可信度更高,智源也在以下几个方面进行探索。

智源研究院副院长兼总工程师林咏华表示:“首先,保证评测不容易被过度拟合,必须要做到以新换旧、以难换易。在下次的评测中,智源会换更难的题目。其次,在评测中需要满足大模型新的使用场景。我们会不断地把指令跟随等新的使用场景更新到评测集中。最后,大模型的发展对新的模态有新的要求,未来我们也会添加可信等维度。”

除此之外,目前智源评测还只集中在通用模型层面,后续也计划联合更多专业机构,将评测推向金融、医疗、法律等垂类场景。

联合权威教育机构对大模型进行K12全学科评测

联合北京市海淀区教师进修学校对大模型进行K12全学科评测,是智源本次评测颇具特色的一点。其中,针对答案不唯一的主观题,则由海淀教师亲自评卷。

那么,从评测结果来看,在综合学科能力上,模型与海淀学生的平均水平相比仍有差距。文强理弱的情况不仅普遍存在,对图表的理解能力也有不足。



(来源:资料图)

根据北京市海淀区教师进修学校校长姚守梅的解读,模型在面对语文、历史等人文学科考题时,欠缺对文字背后的文化内涵及家国情怀的理解;面对历史地理综合题时,无法有效识别学科属性;面对英语学科时,更擅长复杂题目而非简单题目;求解理科考题时,会出现用超出年级的方法解题的情况,遇到无法理解的考题时还存在明显的“幻觉”。



图丨姚守梅(来源:资料图)

其中,模型不擅长低年级题目的表现让人感到反常和好奇。这背后,究竟存在哪些原因?

王仲远指出,越低年级的题目,图片就越多。从某种程度上看,由于多模态发展不如语言模型的发展,所以大模型在包含更多图片的低年级题目上,反而做得不够好。

智源研究院智能评测组负责人杨熙在认同上述看法的同时,也从模型训练的角度进行了补充。

“做模型时要更多地面向应用,所以对标的是成人的认知,使用的训练数据大部分也都来自互联网。而人类在低幼时期获取知识的方式和成人获取知识的方式并不相同。这也从侧面反映出,大模型的学习方式与人类的认知发展方式有差别。”他说。

另外,智源之所以选择对大模型进行K12全学科测试,是否意味着其认为教育大模型是一个很好的落地赛道?

“K12本身不是为了评测教育,也不是为教育行业服务,而是为了评测大模型的学科能力。”王仲远表示。

举例来说,在该领域从业者的共识中,大模型更容易在金融、医疗等领域落地。其中,金融行业需要强大的语文能力,医疗行业需要化学、数学等能力。利用K12全学科来考察大模型,实则是为了了解它在哪个行业的发展潜力最大。

与中传联合建立针对文生视频模型的主观评价体系

另据悉,在本次发布会上,中国传媒大学智能媒体计算实验室负责人史萍教授指出,与文本相比,视频在主观评价上复杂性极高,自动化指标难以全面衡量模型生成质量,以及量化生成视频的真实性、图文语义性等维度。



图丨史萍(来源:资料图)

基于此,智源宣布与中国传媒大学媒介融合与传播国家重点实验室联合建立针对文生视频模型的主观评价体系,将从图文一致性、真实性、视频质量和美学质量四大方面给出多维度评分,从而为文生视频的应用和发展提供系统化参考。

文生视频,是多模态能力的一种。有观点认为,多模态是中国大模型发展弯道超车的机会。

对此,林咏华表示,有这种可能性的存在。“关键在于驱动多模态模型成功的要素,即算法、算力和数据。”她说。

就智源评测而言,由于目前多模态模型评测的任务还比较单一,而多模态模型发展将会朝着世界模型的方向发展,因此今后其在评测时会重点考察多模态模型是否能够真正理解世界背后的科学原理和数理逻辑。



图 | 王仲远(来源:资料图)

在王仲远看来,将来大模型行业会分成两个发展方向,一是追求最顶尖的大模型,通过继续扩大数据参数量、算力等方面,来实现真正的通用人工智能(AGI,Artificial General Intelligence),二是发展能够改变各行各业、解决实际问题的产业大模型。

“我认为三年内可以看到AI与各行各业的深度结合,五年内能有‘杀手级’的C端应用出现,十年内我期待国产AGI的诞生。”对于大模型的未来,他这样预测。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
网红柏公子被封禁后首露面,化浓妆打扮时髦,同村人曝其被封原因

网红柏公子被封禁后首露面,化浓妆打扮时髦,同村人曝其被封原因

鑫鑫说说
2024-06-17 11:30:16
不仅登船临检,还进行了“拖拽”操作,菲律宾威胁要反击

不仅登船临检,还进行了“拖拽”操作,菲律宾威胁要反击

三叔的装备空间
2024-06-17 23:24:29
看完4集《金庸武侠世界》,我想说:武侠剧像这么拍,何愁没观众

看完4集《金庸武侠世界》,我想说:武侠剧像这么拍,何愁没观众

肥罗大电影
2024-06-17 20:08:42
为啥都说明显感觉中产阶级的教育风向开始大反转了?评论太扎心了

为啥都说明显感觉中产阶级的教育风向开始大反转了?评论太扎心了

户外钓鱼哥阿勇
2024-06-17 14:04:19
清华大学博士全面分析姜萍这次竞赛的难度以及水准,引起热议!

清华大学博士全面分析姜萍这次竞赛的难度以及水准,引起热议!

新时代的两性情感
2024-06-17 14:38:57
南方医科大事件,弄不好就成了另一起彭宇案

南方医科大事件,弄不好就成了另一起彭宇案

亮见
2024-06-17 15:19:22
高二女生头痛欲裂,母亲却说她装病逃避考试,医生:准备后事吧

高二女生头痛欲裂,母亲却说她装病逃避考试,医生:准备后事吧

星辰故事屋
2024-06-17 21:17:45
美媒:西方保护主义难阻全球化大势

美媒:西方保护主义难阻全球化大势

参考消息
2024-06-16 18:17:09
现在月薪1万在中国是什么水平?

现在月薪1万在中国是什么水平?

陌小尘桑
2024-01-03 18:50:03
税务倒查30年?公开回应来了!税务到底可以倒查企业多少年?

税务倒查30年?公开回应来了!税务到底可以倒查企业多少年?

学税
2024-06-17 09:42:16
再见皇马!1.3亿太子造内讧!拒绝让位姆巴佩,投奔瓜帅当新梅西

再见皇马!1.3亿太子造内讧!拒绝让位姆巴佩,投奔瓜帅当新梅西

阿泰希特
2024-06-17 11:21:38
退还美国国籍,不惧美威逼利诱毅然回国,全美冠军:我只为中国战

退还美国国籍,不惧美威逼利诱毅然回国,全美冠军:我只为中国战

百年历史老号
2024-06-17 03:01:03
银行原董事长和代行长联手,上任当月勾结“准90后”大股东挪走26亿元!其中18亿被转至大股东香港公司账户

银行原董事长和代行长联手,上任当月勾结“准90后”大股东挪走26亿元!其中18亿被转至大股东香港公司账户

每日经济新闻
2024-06-17 17:20:23
Apple Watch 迎来 10 年首次改款,终于可以换新了!

Apple Watch 迎来 10 年首次改款,终于可以换新了!

刘奔跑
2024-06-17 20:09:35
英格兰最弱1环?用废4王牌+险开翻15亿巨舰!球迷:下轮就解雇他

英格兰最弱1环?用废4王牌+险开翻15亿巨舰!球迷:下轮就解雇他

我爱英超
2024-06-17 05:46:36
老舅宝石父亲节晒一家大合照,妻子酷似张柏芝,10岁儿子卷发帅气

老舅宝石父亲节晒一家大合照,妻子酷似张柏芝,10岁儿子卷发帅气

娱小小新
2024-06-17 11:06:11
官宣!2024年养老金增长3%!三类退休人员可以多加钱

官宣!2024年养老金增长3%!三类退休人员可以多加钱

王五说说看
2024-06-17 16:34:19
2024年养老金上调3%,3类人多发养老金,你的养老金能涨多少?

2024年养老金上调3%,3类人多发养老金,你的养老金能涨多少?

财商路人蚁
2024-06-17 22:55:26
1971年,林彪乘坐飞机外逃,主席忙得不可开交,女儿却宣布要结婚

1971年,林彪乘坐飞机外逃,主席忙得不可开交,女儿却宣布要结婚

历史龙元阁
2024-06-17 16:07:18
出了!2024年养老金调整公布,涨幅为3%,在你预期内吗?

出了!2024年养老金调整公布,涨幅为3%,在你预期内吗?

健康乡村
2024-06-17 16:52:46
2024-06-18 05:06:44
DeepTech深科技
DeepTech深科技
麻省理工科技评论独家合作
13932文章数 512014关注度
往期回顾 全部

科技要闻

为什么你的iPhone,肯定用不上"苹果AI"?

头条要闻

欧洲杯-卢卡库屡失良机两进球被吹 比利时0-1斯洛伐克

头条要闻

欧洲杯-卢卡库屡失良机两进球被吹 比利时0-1斯洛伐克

体育要闻

飞翔的斗牛士 如今也迎来最后一舞

娱乐要闻

上影节红毯:倪妮好松弛,娜扎吸睛

财经要闻

人均养老金上调3% 怎么年轻人吵翻了?

汽车要闻

传奇新篇章 全新一代大众迈腾来了

态度原创

本地
房产
数码
家居
公开课

本地新闻

能动司法尽“执”履责 ——“交叉执行”高效能

房产要闻

强!全国第三!海口房价正在止跌!

数码要闻

苹果 visionOS 1.3 开发者预览版 Beta 发布

家居要闻

研己实景 古典与现代的交融

公开课

近视只是视力差?小心并发症

无障碍浏览 进入关怀版