网易首页 > 网易科技 > 网易科技 > 正文

新华网:《国内LLM产品测试报告》发布 百度文心一言多维度整体领先

0
分享至

人工智能技术不断迭代引发新一轮科技革命和产业变革,进一步提升人们对经济社会更加美好的体验。当前,全球信息科技巨头纷纷入局,智能化应用走向了以大语言模型(简称:LLM即Large Language Model,大语言模型)为代表的大模型时代。

为反映当前LLM发展最新情况特点,了解LLM产品应用情况。近日,新华网与国内权威科研机构联合推出《国内LLM产品测试报告》。选取文心一言、GPT-3.5、讯飞星火和ChatGLM等四个LLM产品(各测试模型基本情况如下图),从内容安全问答、常识问答、数学运算、阅读理解和主观问答等五个维度对LLM进行多维度能力测试和分析。为便于评估和展示,将六类测试分数分别转换为百分制。

表1选用LLM列表

报告显示,以文心一言为代表的国产大模型在内容安全、阅读理解、常识问答,数学运算等方面的表现普遍较好,能准确回应测试问题。尤其在内容安全和数学运算方面,国产大模型的优势相对更加明显。国产大模型中,文心一言在内容安全方面普遍能给出积极准确的正面回应;在常识问答,阅读理解、主观题目和数学运算等方面表现均较为出色,具备更丰富的常识知识和更强大的逻辑运算能力。

图为多维度测试结果

具体来看,在内容安全方面,文心一言获得了115分,在本次测试中领跑,对于内容安全问题的敏感度也最高。而GPT-3.5和开源模型ChatGLM由于没有做相关严格约束,可能回答出一些存在政治或者文化偏见的内容。此外,所有的LLM均对涉黄类问题很敏感,都未在相关回答上诱导。

在常识问答方面,文心一言获得了88分,GPT-3.5和讯飞星火均得到60分左右,ChatGLM仅获得33分的成绩。整体来说,大多数国内LLM均具备基本的文化、历史、地理和生活常识知识,能准确回答绝大多数常识问题。而对于一些相对冷门的常识问题,除文心一言外其他模型都给出了不同的错误答案。

在数学运算方面,文心一言获得93分、讯飞星火和GPT-3.5分别获得75、68分,而ChatGLM仅仅获得11分。当题目涉及一些基础直接的数学运算,所有的大模型基本都能算对,这说明当前的大模型都能理解基本的计算规则。但是随着题目变得复杂,只有文心一言和讯飞星火能正确回答该问题。说明包括文心一言和讯飞星火在内的国产大模型在数学逻辑能力方面会优于其他模型。另外,文心一言在解题目时会采用直接的算数解法,而讯飞星火等模型会采用解方程操作,说明文心一言具有一定的逆向逻辑思维能力,解题方式更加简洁直接。

在阅读理解方面,文心一言得到95分、GPT-3.5得到67分, 讯飞星火和ChatGLM分别获得57分和33分。虽然大模型的部分输出结果不能完全对应正确答案,但大都角度正确且言之有理,说明现有LLM在中文长文本阅读理解方面均具备较高水平。

在主观题方面,各个模型的性能表现相差不多。其中,GPT-3.5取得了最好的结果,文心一言次之。具体而言,从流畅度方面来看, GPT-3.5的输出文本最为流畅,不存在语言重复或者表述不清晰的现象。而文心一言存在少数表述重复的情况。从规范性角度来看,所有的模型均具备较为标准的回答格式,如包括解释、分析、总结等基本步骤。这主要是因为大模型的数据输入都具备固定数据模板,导致模型记住了这些特定模式。从理解力来看,GPT-3.5对主观题的理解最为准确,极少出现文不对题的情况,文心一言次之。文心一言在回答该类组织创意问题时,更加倾向于表述活动的组织细节,比如介绍时间、地点、流程、活动预算等信息。从事实性和全面性角度来看,均是GPT-3.5表现最好,说明了其蕴含的语义知识相对更加丰富。但在测评中国的一些风俗习惯或者传统文化相关的知识时,它的性能逊色于国产语言模型。

此外,在所有被测LLM产品,目前仅文心一言可公开使用由文生图的多模态功能,但目前对一些易混淆的成语理解还有所欠缺。

LLM已经成为人工智能技术应用场景发展的新阶段。随着人工智能技术的不断演进,必将引发一场经济社会应用的人工替代化新思考。一方面,LLM的应用场景将进一步多元化。随着技术的演进,LLM将不再局限于文本、音频和视觉等基本形态,还将具备嗅觉、触觉、味觉、情感等多重信息感知和认知能力,以数字化形式传输并指导人工智能进行内容创作。另一方面,大模型重新定义了人机交互,催生AI原生应用,服务千行百业。大模型会深度融合到实体经济当中去,助力中国数字经济开创新一代人工智能发展阶段。

未来LLM竞争关键是算法是否更为接近和超越人类的思维方式。目前LLM在逻辑推理的计算能力,灵活能力以及快速自学习能力决定领先的优势。在逻辑推理中更能理解人类情感和接近超越人类思维方式,使得模型更加智能,也是很多头部LLM厂商的共同研发升级的追求。

相关推荐
热点推荐
何晴董璇的合影,那时董璇真年轻,何晴略显沧桑。她们都是美人儿

何晴董璇的合影,那时董璇真年轻,何晴略显沧桑。她们都是美人儿

手工制作阿歼
2025-12-15 02:30:12
惹怒8万人 梅西印度行负责人保释遭拒+被拘14天 3天付梅西1.4亿元

惹怒8万人 梅西印度行负责人保释遭拒+被拘14天 3天付梅西1.4亿元

风过乡
2025-12-14 16:52:06
女排世俱杯收官:卫冕冠军1-3,朱婷13分集齐金银铜,最佳阵容出炉

女排世俱杯收官:卫冕冠军1-3,朱婷13分集齐金银铜,最佳阵容出炉

求球不落谛
2025-12-15 06:14:39
郭德纲“沉睡千年的蛆”引爆舆论:讽刺艺术的边界在哪里?

郭德纲“沉睡千年的蛆”引爆舆论:讽刺艺术的边界在哪里?

胡严乱语
2025-12-13 15:07:35
拔火罐吸出来的瘀血,是体内的毒素?告诉你大实话,看完涨知识

拔火罐吸出来的瘀血,是体内的毒素?告诉你大实话,看完涨知识

全球军事记
2025-12-11 20:47:33
泰柬战火燃烧数日,柬埔寨为何孤立无援?只因三件事让亲者痛心

泰柬战火燃烧数日,柬埔寨为何孤立无援?只因三件事让亲者痛心

博览历史
2025-12-12 21:22:17
向太曝马伊琍已再婚:当年文章过不了心理那关

向太曝马伊琍已再婚:当年文章过不了心理那关

娱乐看阿敞
2025-12-12 15:50:00
3-0完胜!国乒男单首次丢掉总决赛冠军夜里,樊振东德甲又赢了!

3-0完胜!国乒男单首次丢掉总决赛冠军夜里,樊振东德甲又赢了!

大秦壁虎白话体育
2025-12-15 00:29:01
中国乒协出面道歉!张本智和抗议有效,声称不会忘记经历的这一切

中国乒协出面道歉!张本智和抗议有效,声称不会忘记经历的这一切

十点街球体育
2025-12-15 00:10:02
2025交管12123史诗级升级!违章10分钟直达,98%超时免罚通过率!

2025交管12123史诗级升级!违章10分钟直达,98%超时免罚通过率!

老特有话说
2025-12-14 19:04:29
扎哈罗娃:俄罗斯对欧盟报复行动很快就到

扎哈罗娃:俄罗斯对欧盟报复行动很快就到

参考消息
2025-12-14 11:24:04
江西省南丰县发生一起交通事故致4人死亡

江西省南丰县发生一起交通事故致4人死亡

澎湃新闻
2025-12-14 18:11:02
“肉车”泛滥,打工人崩溃:为什么路上全是肉车?

“肉车”泛滥,打工人崩溃:为什么路上全是肉车?

诗意世界
2025-12-14 11:35:43
61岁演员何晴去世内幕:不仅患脑瘤还中风了,经济拮据没办好退休

61岁演员何晴去世内幕:不仅患脑瘤还中风了,经济拮据没办好退休

天天热点见闻
2025-12-15 04:29:43
峰回路转?利物浦上下公开挽留萨拉赫!进货?法鹰正谈判德乙神锋

峰回路转?利物浦上下公开挽留萨拉赫!进货?法鹰正谈判德乙神锋

足球侦探
2025-12-15 08:35:05
《经济学人》丨为什么除了上海和东京,许多亚洲特大城市令人痛苦

《经济学人》丨为什么除了上海和东京,许多亚洲特大城市令人痛苦

邸报
2025-12-14 11:52:28
何晴被曝因脑瘤去世,医生解读病症,劝告大家要远离辐射

何晴被曝因脑瘤去世,医生解读病症,劝告大家要远离辐射

陈意小可爱
2025-12-14 16:05:47
香港总决赛落幕,王励勤却开心不起来,因为无法接受这三个事实!

香港总决赛落幕,王励勤却开心不起来,因为无法接受这三个事实!

田先生篮球
2025-12-14 22:08:36
江启臣宣布参选台中市长,杨琼璎:如果我赢得初选,邀他进竞选总部

江启臣宣布参选台中市长,杨琼璎:如果我赢得初选,邀他进竞选总部

海峡导报社
2025-12-15 07:12:02
2003年,陈赓之子升官之际接到威胁电话:想升官先拿200万疏通费

2003年,陈赓之子升官之际接到威胁电话:想升官先拿200万疏通费

纪实文录
2025-05-08 16:55:52
2025-12-15 09:03:00

科技要闻

平价数码产品,要和我们说再见了?

头条要闻

牛弹琴:2025年最勇敢的一个动作 背后是全世界的震惊

头条要闻

牛弹琴:2025年最勇敢的一个动作 背后是全世界的震惊

体育要闻

马刺终结雷霆:以勇猛,以文班亚马

娱乐要闻

何晴生前最大谣言!没有再婚嫁廖京生

财经要闻

新会陈皮乱象曝光:产地造假、年份速成

汽车要闻

硬核敞篷巴士?掷弹兵Game Viewer 2026年初量产

态度原创

教育
手机
艺术
数码
家居

教育要闻

南宁青秀区8所大学盘点!快速锁定求学目标

手机要闻

小米全家桶来了,春节前新品全曝光

艺术要闻

毛主席草书二幅惊艳亮相,能与古代书法巨匠争锋!

数码要闻

Intel酷睿Ultra 9 290K/270K Plus桌面CPU齐现身!频率更高、核心更多

家居要闻

温润质感 打造干净空间

无障碍浏览 进入关怀版
×