网易首页 > 网易号 > 正文 申请入驻

我们需要怎样的大模型测评

0
分享至

国产大模型又多一份测评,这次的状元是讯飞星火。近日,《麻省理工科技评论》从多维度全方位检测,力图评出“最聪明”的国产大模型。最终,讯飞星火认知大模型V2.0荣获“最聪明”的国产大模型称号。

国产大模型竞赛如火如荼,好像每一个大模型都很牛,但具体牛在哪又始终缥缈,由此大模型测评应运而生。但这又可能注定是一件要“烧情怀”的事,它同样面临着“开源”还是“闭源”的两难选择,和刷题与竞价排名的诸多争议。

武林大会

国内“千模大战”下,谁是最聪明的大模型《麻省理工科技评论》最新发布的大模型评测报告。该报告称从研发和商业化能力、外界态度以及发展趋势等维度全方位检测大模型的能力,最终,讯飞星火认知大模型V2.0以81.5分的成绩登顶,荣获“最聪明”的国产大模型称号。

8月15日,科大讯飞发布“讯飞星火认知大模型V2.0版本”,科大讯飞董事长刘庆峰介绍,从业界参考测试集上的效果对比来看,星火V2.0基于Python和C++进行代码写作能力已高度逼近ChatGPT,差距仅分别为1%和2%。

刘庆峰说,到10月24日星火大模型代码能力全面超越ChatGPT,明年上半年将正式对标GPT4。

讯飞星火像是一个缩影。过去这段时间,大模型频繁更新让人眼花缭乱,动辄千亿的参数、各种专业术语也让人不明觉厉。但人们似乎很难找到一把统一的尺子,公平、客观、直观地感知大模型真正的效果,而不被纷杂的信息流所蒙蔽。

天使投资人、资深人工智能专家郭涛对北京商报记者分析称,“大模型是一个非常复杂的系统,它由大量的数据和算法组成,在训练和推理过程中需要考虑很多因素。对大模型进行测评可以帮助我们更好地了解模型的性能和特点、评估价值和意义、局限性和潜在风险等,从而为大模型的发展和应用提供有力支持”。

深度科技研究院院长张孝荣将测评形容为一场“武林大会”,要试试各家身手。他对北京商报记者分析称,大模型涉及到庞大的参数和复杂的算法,对于性能和效果的评估十分重要。通过测评可以大致地了解大模型的性能、稳定性、准确性等内容,为用户选择合适的大模型提供参考。

测评开始补位。今年3月,真格基金以投资者的身份入场,设计了一套大模型测试集Z-Bench。高校也是测评的中坚力量,例如清华大学、上海交通大学和爱丁堡大学合作构建的面向中文语言模型的综合性考试评测集C-Eval。

有媒体报道,5月以来,10多家国内外多家调研机构、权威媒体和高校等发布大模型评测报告,包括新华社研究院中国企业发展研究中心发布的《人工智能大模型体验报告2.0》、天津大学和信创海河实验室发布的《大模型评测报告》、国际数据公司IDC发布的《AI大模型技术能力评估报告,2023》等。

标准难统一

当该有测评成为共识,迎面而来的下一个问题就是,我们需要一个怎样的测评。

《麻省理工科技评论》提到,评测使用的测试集包含600道题目,覆盖了语言专项、数学专项、理科综合、文科综合、逻辑思维、编程能力、综合知识、安全性共8个一级大类,126个二级分类,290个三级标签,并针对问题的丰富性和多样性做了优化。

此前IDC则在测评中将大模型分为三层,服务生态、产品技术以及行业应用,对每一层的能力进行测评,主要考察指标为算法模型、通用能力、创新能力、平台能力、安全可解释、大模型的应用行业以及配套服务和大模型生态等,具体包括36项细颗粒度的评估标准。

对于大模型测评的必要性,元语智能联合创始人兼COO、SuperCLUE联合发起人朱雷提到,模型测评基准是通用人工智能的基石,没有测评就意味着没有目标,很难准确地判断究竟哪些做得好哪些做得不好,同时对于AI的安全性也无法把控。从国际视角上看,对于大模型的测评也是没有绝对标准的,因为大模型发展太快了。但在国内要做出一个客观公正的评测基准,也会遇到很多阻力。

北京市社会科学院副研究员王鹏对北京商报记者分析,目前大模型尚属新兴事物,国际上还没有一个覆盖面非常广、能够得到大家公允的评估方法或整套指标体系,需要加强国际合作,形成广泛共识。

“但这也会面临一定的问题,即大模型本身类型繁多,通用还是专用、垂类还是跨行业、偏技术还是偏应用等区别也会带来一定的阻碍,因此更需要权威机构加强研究,尽快形成共识,促进技术进步和行业发展。”王鹏称。

在他看来,一个合格的测评,应该由四个维度组成。首先是技术本身,包括稳定性、效率、效果等;其次是与行业的结合,在行业应用中是否有效果、成本是否可控、是否能够形成商业闭环;再次还要考虑是否安全可控;最后要从社会及行业认知角度,了解其在行业中的关注度,毕竟“酒香也怕巷子深”。

张孝荣也提到,由于大模型涉及的领域和应用非常广泛,不同领域、不同应用的大模型需要关注的指标和评估方法不尽相同。因此,针对具体应用领域和需求,不同机构和组织可能会提出不同的评估标准和方法。“尽管没有统一的标准,但测评的意义在于提供了一种评估和比较不同大模型性能和效果的方法,帮助用户选择适合自己需求的大模型。”

测评还是营销

“测评的意义侧重于营销推广。”张孝荣还提到了一个观点。

360智脑产品资深专家葛灿辉在引用SuperCLUE测评结果的时候,提炼出了一句总结:“360智脑”多项能力位列国产大模型第一。《麻省理工科技评论》的测评报告,传播最多的也是“讯飞星火被评为中国‘最聪明’的大模型”。

更早些时候,刷屏的是百度。比如IDC的大模型报告中,“百度文心大模型3.5获多项满分”,清华大学新闻与传播学院沈阳团队发布的《大语言模型综合性能评估报告》中,百度文心一言在三大维度20项指标中综合评分国内第一,超越ChatGPT。

每每涉及榜单,榜首归谁总是容易成为话题中心,从这个角度上看,测评本身或许就带着些营销的天然属性。但也正是如此,延伸出了一些不容忽视的问题。

“SuperCLUE出6月榜单的时候,第一时间就有人指责我们是不是收了360的钱,但事实是,直到这次沙龙,我们与360智脑产品负责人才有了第一次接触。”朱雷如此说道。

事实上,大模型测评同样面临着“开源”和“闭源”的两难选择。朱雷称,大模型测评题集也有开源闭源之分,但开源的题目就会面临受试者提前训练进而刷分“打榜”的可能,而闭源的题目就会陷入到是否有暗箱操作乃至竞价排名的争议。

朱雷表示,SuperCLUE还是选择了闭源的测评路线,但不是任何机构都可以闭源的,之所以公众较为相信SuperCLUE的测评结果,主要还是基于过去四年CLUE社区对中文语言模型的贡献和公信力。

据了解,CLUE开源社区发起于2019年,旨在建立科学、客观、中立的AI评测基准,过去几年CLUE社区分别建立了ZeroCLUE、FewCLUE等知名的语言模型评测基准,又于今年5月发布首个中文通用大模型综合性评测基准SuperCLUE。

SuperCLUE分为SuperCLUE-Opt、SuperCLUE-LYB琅琊榜以及SuperCLUE-Open三个不同维度的评测基准,相辅相成。据介绍,SuperCLUE目前也是中文AI领域最完整的综合性测评基准,同时也是罕见的“闭卷”考试。

“我们暂时还没有找到折中的方法,所以决定先‘保密’,大模型厂商不知道我出了什么样的问题,自然不好刷分。至于‘保密’带来的黑盒化,目前来看还是一个两者不可兼得的问题,但我们坚信自己的第三方中立性,评测的结论也是十分科学的。”朱雷称。

王鹏分析称,任何一项评估或排名,都可能面临一些问题,但这其实相当于一个“否定之否定”的过程。首先评估体系本身并不是完美的,需要不断优化提升,应对大家可能产生的质疑。

其次,专业的评测机构、技术机构等,也要注重自己的口碑,建立完善的体系,储备丰富的经验,有较好的技术团队和技术储备,作出更加客观公允、公平公正的评价。“因为一旦出现‘人情分’等问题,不仅会影响自己的声誉,也不利于行业的未来发展。”王鹏称。

北京商报记者 杨月涵

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
夫妻寿命的奇特规律:先走的那个,决定了另一个寿命

夫妻寿命的奇特规律:先走的那个,决定了另一个寿命

户外阿崭
2024-06-02 12:34:19
枢密院十号:美国海军未来战舰,又栽进同一个坑里了……

枢密院十号:美国海军未来战舰,又栽进同一个坑里了……

环球网资讯
2024-06-01 23:24:30
又一起“杭州杀妻案”,背后人性不忍看

又一起“杭州杀妻案”,背后人性不忍看

华人星光
2024-06-01 17:19:43
普华永道“一夜失业”!五大央企联手“封杀”普华永道!

普华永道“一夜失业”!五大央企联手“封杀”普华永道!

小蜜情感说
2024-06-02 12:37:16
高层终于出手了,深夜消息让人五味杂陈,两大领域或将一飞冲天

高层终于出手了,深夜消息让人五味杂陈,两大领域或将一飞冲天

静守时光落日
2024-06-02 07:00:08
从上海出发回到上海虹桥,耗费8小时,串联21座车站!超级环线来了,首日票已售罄

从上海出发回到上海虹桥,耗费8小时,串联21座车站!超级环线来了,首日票已售罄

上观新闻
2024-06-02 13:40:30
男子想和前妻拥抱被推开,摔倒在地,其妻子在一旁也没有上前扶他

男子想和前妻拥抱被推开,摔倒在地,其妻子在一旁也没有上前扶他

佑宛故事汇
2024-06-01 17:05:39
好消息!天津人可以坐高铁直达北京站了,北京人来天津也将更方便

好消息!天津人可以坐高铁直达北京站了,北京人来天津也将更方便

边塞沿海
2024-06-02 11:39:56
打麻将随身带这三样东西运气爆棚

打麻将随身带这三样东西运气爆棚

漫步风雨中
2024-05-30 13:39:16
广东韶关4岁男孩儿童节当天走失,家人和数十名志愿者连夜寻找

广东韶关4岁男孩儿童节当天走失,家人和数十名志愿者连夜寻找

极目新闻
2024-06-02 17:18:24
将近40岁满脸褶,却尬演18岁少女,是谁给了她“强行装嫩”的勇气

将近40岁满脸褶,却尬演18岁少女,是谁给了她“强行装嫩”的勇气

娱乐圈十三太保
2024-05-28 13:56:53
皇马15次欧冠夺冠战袍一览

皇马15次欧冠夺冠战袍一览

直播吧
2024-06-02 08:56:09
从夜景灯光图看杭州、郑州、苏州这3座新一线城市繁华程度排名

从夜景灯光图看杭州、郑州、苏州这3座新一线城市繁华程度排名

辽宁打工者谈城市发展
2024-06-02 06:58:33
乌克兰第三突击旅对战争发表强硬声明:所有俄罗斯目标都必须摧毁

乌克兰第三突击旅对战争发表强硬声明:所有俄罗斯目标都必须摧毁

探索星空
2024-06-01 11:33:49
多特0-2丢欧冠,赛后穆里尼奥上演暖心一幕,球迷:真正的风度

多特0-2丢欧冠,赛后穆里尼奥上演暖心一幕,球迷:真正的风度

侧身凌空斩
2024-06-02 06:00:56
张志磊下一场比赛打谁?美媒提前剧透,沙特金主给出了三个候选人

张志磊下一场比赛打谁?美媒提前剧透,沙特金主给出了三个候选人

邮轮摄影师阿嗵
2024-06-02 12:55:02
红星深度|“艺人”郭有才

红星深度|“艺人”郭有才

红星新闻
2024-06-01 23:21:11
当普通人都感觉经济很难的时候,其实经济危机早就全面爆发了

当普通人都感觉经济很难的时候,其实经济危机早就全面爆发了

芯怡飞
2024-06-01 14:19:03
正式确定!布莱克尼完成签约,加盟上海男篮,刘鹏全力冲击前四

正式确定!布莱克尼完成签约,加盟上海男篮,刘鹏全力冲击前四

体坛瞎白话
2024-06-02 16:39:50
王宝强罕与一对儿女同框,爷仨与女友聚会,女儿胖不少儿子显老成

王宝强罕与一对儿女同框,爷仨与女友聚会,女儿胖不少儿子显老成

时尚小玥玥
2024-06-02 15:07:32
2024-06-02 18:52:49
北京商报
北京商报
北京发行量最大综合类经济日报
210711文章数 298175关注度
往期回顾 全部

科技要闻

成功着陆!嫦娥六号将开始月背“挖宝”

头条要闻

媒体:中美防长会谈细节披露 董军的两句话值得注意

头条要闻

媒体:中美防长会谈细节披露 董军的两句话值得注意

体育要闻

我已伤痕累累 却依然感动不了命运之神

娱乐要闻

白玉兰提名:胡歌、范伟争视帝

财经要闻

新造车5月销量: 小鹏乏力 问界暂"缺席"

汽车要闻

吉利银河E5 Flyme Auto智能座舱首发

态度原创

亲子
旅游
游戏
健康
公开课

亲子要闻

小男生从长发剪成短发,不变的是那英俊可爱的外表

旅游要闻

武侯祠开启“时光机”穿越到“那些年”

Rookie赛场为患癌粉丝佩戴蓝丝带 温暖真情令人泪目

晚餐不吃or吃七分饱,哪种更减肥?

公开课

近视只是视力差?小心并发症

无障碍浏览 进入关怀版