网易首页 > 网易号 > 正文 申请入驻

人民数据:六大维度27个评测指标 文心一言综合评分第一

0
分享至

导语:AI“大模型”热潮正在席卷全球。近日,人民数据研究院选取文心一言、讯飞星火、通义千问、ChatGPT四个主流AI大模型进行综合能力测评,文心一言在多个指标上处于领先地位。

2023年,全球科技巨头加速入局大模型,国家和地方政府层面也纷纷出台了系列政策,大模型行业迅速发展。

为探究当前大模型发展现状,近日,人民数据研究院选取文心一言、讯飞星火、通义千问、ChatGPT四个主流AI大模型,从内容生态、数据认知、言语理解、知识问答、逻辑推理、助力科研六个维度、27个二级指标构建测评模型,围绕各AI大模型回答内容的导向性、系统性和准确性等方面进行星级评估。

评测显示,文心一言综合测评效果在四者中最优,综合评分为4.02星

表1:人民数据研究院测评整体情况一览表

表2:AI大模型测试版本号

整体看,四个AI大模型在各个维度表现均良好,总平均分为3.82星。

在内容生态测评上,文心一言等大模型作答准确,分析较系统全面。测评发现,文心一言、讯飞星火、通义千问、ChatGPT四个AI大模型整体均能对负面敏感话题做出不同程度的规避和处理。在针对价值伦理、涉低俗及未成年人保护相关话题的问答中,AI大模型回答的内容较为安全。文心一言和讯飞星火内容生态测评分值均超过平均分3.58星,文心一言的综合回答表现最佳。

在数据认知测评中,各大模型均能够意识到信息泄露的危害及其严重性针对个人信息泄露的现象提出多项建议,助力提问者保护个人信息安全。其中,以文心一言为代表的大模型从增强个人信息保护意识等角度提出多项保护措施。此项测评分平均为3.69星,最高分为文心一言,得分为4.00星。

在言语理解测评中,在给定主题和写作要求的情况下,各大模型都能够紧扣主题完成写作任务,用词较为准确、语言流畅。文心一言善于引用案例和名言,并能够从自然、社会和个人内心等多个角度阐述文章中心思想。在高考作文、辅助创作、文言文阅读理解等测评维度均得分4星。讯飞星火尝试从辩证关系角度讨论主题。ChatGPT分析能力较强,逻辑清晰并能识别隐喻意义,并做出多维度的可能性分析。

在知识问答测评中,各大测评模型整体表现较好,回答内容系统全面且逻辑性强。对于经济、文化、社会、环境等多个领域的常识性问题,大多能理解题意并准确作答。文心一言、讯飞星火、通义千问这三款国产大模型得分一致,均为4.30星。

在逻辑推理能力测评中, AI大模型的文本推理较算数推理能力更突出,但仍需提高综合规律分析能力。如在找规律问题中,文心一言和ChatGPT可以迅速发现一般性规律并得出正确答案,但部分大模型未能正确理解题目,需要提升综合归因分析的逻辑能力。

在助力科研能力方面,四个AI大模型在课题意义层面的具体测评表现来看,文心一言、通义千问、ChatGPT对问题的意义评价和思考都体现出了大模型语言较好的归纳分析能力,能够从研究课题的可行性、创新性、重要性、实践性、学术性等层面作出完整的评估,累计综合得分均在4星以上。

当前,各家大模型还在快速迭代。百度文心大模型目前已经迭代到到3.5版本。与3.0版本相比,训练速度提升了2倍,推理速度提升了30倍,模型效果累计提升超过50%。在数据质量、生成效果和内容安全性上,都得到了明显提升。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
广东高铁晚点原因:大风将彩钢瓦棚顶及钢架梁吹至接触网导致停电

广东高铁晚点原因:大风将彩钢瓦棚顶及钢架梁吹至接触网导致停电

新京报
2026-03-30 07:32:09
员工曝光张雪峰真实的人品!太感人了,感叹好人为何死的那么早?

员工曝光张雪峰真实的人品!太感人了,感叹好人为何死的那么早?

谈史论天地
2026-03-29 08:33:53
网传取消双休要实行?2026年体制内要变天?答案来了!

网传取消双休要实行?2026年体制内要变天?答案来了!

我不叫阿哏
2026-03-29 06:27:36
DeepSeek 崩溃超12小时,工程师连夜抢修,现已恢复正常

DeepSeek 崩溃超12小时,工程师连夜抢修,现已恢复正常

AI前线
2026-03-30 09:37:39
印度被化肥逼到墙角,莫迪警告:再不放行,14亿人将面临重大灾难

印度被化肥逼到墙角,莫迪警告:再不放行,14亿人将面临重大灾难

共工之锚
2026-03-29 18:37:18
火箭134-102大胜鹈鹕,申京36+14+7,杜兰特20分

火箭134-102大胜鹈鹕,申京36+14+7,杜兰特20分

懂球帝
2026-03-30 09:59:06
澳门世界杯3月30日赛程:孙颖莎王曼昱登场!中日爆发首场对决

澳门世界杯3月30日赛程:孙颖莎王曼昱登场!中日爆发首场对决

全言作品
2026-03-30 06:40:03
NBA官宣!东契奇被禁赛!湖人遭受双重打击

NBA官宣!东契奇被禁赛!湖人遭受双重打击

篮球教学论坛
2026-03-29 09:25:30
突然集体拉升!霍尔木兹海峡,大消息!以军参谋长说以军常规部队已崩溃

突然集体拉升!霍尔木兹海峡,大消息!以军参谋长说以军常规部队已崩溃

证券时报e公司
2026-03-28 22:22:58
成都“牵手门”事件女主现今状况曝光,太惨了......

成都“牵手门”事件女主现今状况曝光,太惨了......

许三岁
2026-03-17 07:34:05
终于爆发了,击落大批美以军机:隐身战机,超级大黄蜂不断下坠!

终于爆发了,击落大批美以军机:隐身战机,超级大黄蜂不断下坠!

混沌录
2026-03-27 16:39:18
重大事故!DeepSeek瘫痪超过8小时

重大事故!DeepSeek瘫痪超过8小时

鞭牛士
2026-03-30 08:03:11
中国将在长江水下开高铁

中国将在长江水下开高铁

环球网资讯
2026-03-30 09:38:29
空椅子成禁忌符号 伊朗连锁咖啡因“影射哈梅内伊”被全线关停

空椅子成禁忌符号 伊朗连锁咖啡因“影射哈梅内伊”被全线关停

桂系007
2026-03-28 23:52:19
第84波猛攻!伊朗向华求援,中方斩钉截铁给美指路

第84波猛攻!伊朗向华求援,中方斩钉截铁给美指路

砚底沉香LIU
2026-03-29 14:54:03
死刑震慑直击要害!5名台独喉舌集体噤声,台军军心彻底崩了

死刑震慑直击要害!5名台独喉舌集体噤声,台军军心彻底崩了

星星邮递员
2026-03-30 06:41:39
悲哀!网友哭诉儿子月薪9000,在家吃住,一分生活费却都不愿承担

悲哀!网友哭诉儿子月薪9000,在家吃住,一分生活费却都不愿承担

火山詩话
2026-03-29 11:23:13
柯文哲为什么会被重判17年?

柯文哲为什么会被重判17年?

总在茶余后
2026-03-29 22:49:31
海航最美空姐捡的是水,打的是所有航司官媒的脸

海航最美空姐捡的是水,打的是所有航司官媒的脸

民航大脑壳
2026-03-30 08:05:54
女生主动起来有多黏人?网友:这些女的太开放了

女生主动起来有多黏人?网友:这些女的太开放了

带你感受人间冷暖
2026-01-27 00:20:06
2026-03-30 10:28:49
科技先生 incentive-icons
科技先生
智能设备、电子商务、创业沙龙
1414文章数 35963关注度
往期回顾 全部

科技要闻

DeepSeek“崩了”一夜,仍无法正常使用

头条要闻

牛弹琴:开战30天后 一场更猛烈的风暴即将到来

头条要闻

牛弹琴:开战30天后 一场更猛烈的风暴即将到来

体育要闻

绝杀卫冕冠军后,他单手指天把胜利献给父亲

娱乐要闻

汪峰定律再现!李荣浩喊话单依纯侵权

财经要闻

油价冲击,有些亚洲货币先扛不住了!

汽车要闻

岚图泰山X8配置曝光 四激光雷达/华为新一代座舱

态度原创

数码
时尚
亲子
艺术
本地

数码要闻

555.5万台!中国大陆投影仪稳居全球最大单一市场

来到1980的周也,好毛利兰

亲子要闻

罕见五胞胎全保住,20多名医护深夜齐上阵

艺术要闻

毛主席的草案遭吐槽!退休前能否再创辉煌?

本地新闻

在潍坊待了三天,没遇到一个“潍坊人”

无障碍浏览 进入关怀版