网易首页 > 网易科技 > 网易科技 > 正文

百度文心大模型3.5已内测应用 实测得分超越ChatGPT

0
分享至

6月20日消息,据内部人士透露,百度文心大模型3.5版本已内测可用。早在5月末中关村论坛上,百度创始人、董事长兼CEO李彦宏透露,百度大模型产品“文心一言”的“母本”将迎来3.5版本。

时隔不到一个月,最新版本文心大模型达到了怎样的实力?在公开测试集上进行的基础模型少样本(Few-Shot)评测显示,文心大模型3.5(ERNIE 3.5)在多个测试集的得分已超过ChatGPT。

三大评测基准综合评估 上万道考题“统考”主流大模型

为验证主流大模型的各项综合能力,评测在AGIEval、C-Eval和MMLU三个权威评测基准上进行综合评估。

AGIEval评测基准是微软研究院发布的、专门用于评估模型在“以人为本”的标准化考试中表现水平的测试集。该基准选取20种面向普通人类考生的官方、公开、高标准的资格考试,包括普通大学入学考试(如中国的高考和美国的SAT考试)、司法考试、数学竞赛、律师资格考试、国家公务员考试以及美国的GRE、GMAT等。

C-Eval评测基准是由上海交通大学、清华大学以及爱丁堡大学联合创制和发布的中文基础模型评测集。它包含13948个多项选择题、涵盖52个不同的学科,设置了四个难度级别,是面向中文语言模型的综合考试评测集。

MMLU是伯克利大学、哥伦比亚大学、伊利诺伊大学厄巴纳-香槟分校和芝加哥大学联合发布的一种大规模多任务语言理解的基准测试,用于衡量模型的英文跨学科专业能力。该测试包含57个科目,涵盖STEM、人文、社会科学等。

除了文心大模型3.5,评测的模型还有ChatGPT、GPT-4、ChatGLM、LLaMa系列大模型。评测可以看出大模型在能力上的优劣,同时对模型的迭代发展也有着很强的指导作用。

评测结果:文心大模型3.5中文能力超GPT-4,综合能力超ChatGPT

在AGIEval、C-Eval等中英文权威测试集和MMLU英文权威测试集中,国产文心大模型3.5取得了超过ChatGPT和LLaMa、ChatGLM等其他大模型的分数表现,在中文评测项中超越了GPT-4。

在中文AGIEval评测中,文心大模型3.5得分64.37,远超ChatGLM-6B、LLaMa-7B、LLaMa-13B、LLaMa-65B,同时还超过了ChatGPT的40.27分和 GPT-4的56.96分,位居第一。AGIEval评测英文部分中,GPT-4得分65.55居于首位,文心大模型3.5得分录得50.59分,仅次于GPT-4。紧随其后的是ChatGPT录得48.75分。

在中文C-Eval评测中,文心大模型3.5测出71.93的最高得分,不仅高于ChatGPT的51.70分,还略高于GPT-4的68.57分,领先于LLaMa-65B、LLaMa-7B、ChatGLM-6B的得分。

在英文MMLU测试中,GPT-4和ChatGPT的表现较好,分别以82.47分和68.85分领先于其他大模型。文心大模型3.5得分65.10紧随其后,优于LLaMa-65B、LLaMa-13B、LLaMa-7B、ChatGLM-6B等模型分数。

从上述评测得分来看,文心大模型3.5版中文能力突出,甚至有超出 GPT-4的表现;综合能力稍逊于GPT-4,但已经在评测中超过了 ChatGPT,远远领先于其他开源大模型。

国产大模型中文能力优势突出 综合能力加速缩小差距

尽管市面上有多个大模型横空出世,但大模型研发门槛高、难度大、投入高,依赖算力、数据等综合支撑的现实不容小觑。在推动大模型产业化的路上,中国企业如何在大模型发展过程中发挥所长优势,加速缩小差距?

中国工程院院士邬贺铨曾在接受媒体采访时表示,中国企业在获得中文语料和对中国文化的理解方面比外国企业有天然的优势,中国制造业门类最全,具有面向实体产业训练产业AIGC的有利条件。在算力方面中国已具有较好的基础。

以百度文心大模型3.5为例,与3.0版本相比,通过各项算法和数据的优化,尤其是百度首创的知识增强和检索增强技术的优化,新版本文心大模型在各项能力上均有明显提升。据了解,百度人工智能四层架构的端到端优化,尤其是框架和模型层的协同优化,让文心大模型训练速度、模型效果加速提升。

创新工场董事长兼CEO李开复也曾公开表示“中国拥有丰富的中文语料和庞大的市场,通过发展AI大模型,中国可以推动创新产业的发展,实现科技与经济的双重红利。而且中国拥有庞大基数的年轻工程师和最坚韧的企业家,为发展AI大模型提供了强大的人才支持,技术领先、策略灵活、市场反应快、能打硬仗、落地执行力强,将是中国大模型公司的成功关键。”

眼下,市场呼唤大模型,呼唤先进可用的 AI大模型。相信以百度等为代表的中国科技公司,基于对中国文化的感悟和对中国市场的理解,能够做出不逊于国外公司的AI应用。在数智化的征程上,中国企业应积极迎接挑战,持续创新。

相关推荐
热点推荐
24岁美女被骗到缅北,经历两个月“双开门”折磨,被救已不成人形

24岁美女被骗到缅北,经历两个月“双开门”折磨,被救已不成人形

阿妹讲故事
2025-03-12 22:39:50
CCTV5直播,广东男篮PK广州男篮,徐昕面对老东家,对位焦泊乔!

CCTV5直播,广东男篮PK广州男篮,徐昕面对老东家,对位焦泊乔!

体坛小快灵
2025-12-18 16:25:35
一旦中日再次爆发战争,结局会如何?美俄的看法罕见一致!

一旦中日再次爆发战争,结局会如何?美俄的看法罕见一致!

冷夜说
2025-12-09 08:57:48
为啥今天我们对柬埔寨不再那么鼎力支持了?

为啥今天我们对柬埔寨不再那么鼎力支持了?

扶苏聊历史
2025-12-18 16:13:34
外媒:智利当选总统与马杜罗隔空交锋

外媒:智利当选总统与马杜罗隔空交锋

参考消息
2025-12-17 21:53:07
U15国足遭半场绝杀!沢口荣太劲射破门,6人防线被撕破

U15国足遭半场绝杀!沢口荣太劲射破门,6人防线被撕破

奥拜尔
2025-12-18 15:41:25
晚年凄凉的父母,其实原因就一个,孩子太有出息了

晚年凄凉的父母,其实原因就一个,孩子太有出息了

李舟
2025-12-17 15:32:29
女儿失踪3年,竟托梦说在邻居家鱼缸里,警察赶到后当场愣了

女儿失踪3年,竟托梦说在邻居家鱼缸里,警察赶到后当场愣了

罪案洞察者
2025-09-16 14:31:27
黑色幽默!电诈园区办公室中文标语,简直是天大的讽刺

黑色幽默!电诈园区办公室中文标语,简直是天大的讽刺

麦大人
2025-11-06 08:32:30
A股:今天涨到3880点后回落,做好准备,不出所料,很可能这样走

A股:今天涨到3880点后回落,做好准备,不出所料,很可能这样走

好贤观史记
2025-12-18 11:51:32
杠上了!京辽战被驱逐后,杨鸣深夜发视频回应裁判:必须学会回击

杠上了!京辽战被驱逐后,杨鸣深夜发视频回应裁判:必须学会回击

后仰大风车
2025-12-18 06:33:50
扫地机器人鼻祖宣布破产

扫地机器人鼻祖宣布破产

台州交通广播
2025-12-16 20:24:44
上月刚升任县委书记,在大会上我就被排挤,我准备开始干部调动

上月刚升任县委书记,在大会上我就被排挤,我准备开始干部调动

秋风专栏
2025-12-16 11:43:12
央国企“官僚主义”盛行的三幅画像

央国企“官僚主义”盛行的三幅画像

细说职场
2025-12-18 15:14:06
64岁付笛生现状:住北京四合院,和妻子经常直播,儿子是公司老板

64岁付笛生现状:住北京四合院,和妻子经常直播,儿子是公司老板

丰谭笔录
2025-12-18 11:06:03
三方谈判结束,就等普京点头?11国将出兵乌克兰,中方立场很明确

三方谈判结束,就等普京点头?11国将出兵乌克兰,中方立场很明确

闻识
2025-12-18 15:38:50
人猛价不高,小波特已成交易市场热门,要价1首轮火箭成热门下家

人猛价不高,小波特已成交易市场热门,要价1首轮火箭成热门下家

拾叁懂球
2025-12-18 14:40:02
泰军炸掉诈骗园区、器官移植中心,洪森为何气急败坏?

泰军炸掉诈骗园区、器官移植中心,洪森为何气急败坏?

胡严乱语
2025-12-16 20:33:51
历史第一人!詹姆斯是历史唯一拥有五大MVP的球员!

历史第一人!詹姆斯是历史唯一拥有五大MVP的球员!

氧气是个地铁
2025-12-18 14:11:55
孙殿英风评变好,这意味着什么?

孙殿英风评变好,这意味着什么?

十柱
2025-12-18 15:14:26
2025-12-18 17:16:49

科技要闻

新一代AI创业大赛颁奖典礼暨AI投资论坛

头条要闻

普京:“欧洲小猪”想从俄罗斯解体中捞好处

头条要闻

普京:“欧洲小猪”想从俄罗斯解体中捞好处

体育要闻

巴黎首夺世界级冠军 加冕6冠王比肩巴萨拜仁

娱乐要闻

丝芭放大招了!实名举报鞠婧祎经济犯罪

财经要闻

重大改革,身关14亿人的政策彻底变了!

汽车要闻

开箱日产大沙发 精致办公or躺平追剧 哪个更适配?

态度原创

游戏
亲子
旅游
健康
艺术

小小格温大庆典已于12月18日正式上线!

亲子要闻

智商较低的儿童是否面临更大的心理健康问题风险?研究发现

旅游要闻

文明蕴化看陶寺:陶寺遗址博物馆将举行冬至观日出活动

这些新疗法,让化疗不再那么痛苦

艺术要闻

卡洛斯·杜兰:不只是萨金特的老师!

无障碍浏览 进入关怀版
×