网易首页 > 网易号 > 正文 申请入驻

AI大模型权威评测:豆包中文对话最强,OpenAI o1推理和数学占优

0
分享至

还有不到一周就2025年了,各大社交音娱平台相继自动弹出“年度报告”的搜索选项。身处AI元年,AI模型这份年终答卷,自然也少不了。

智东西12月25日报道,智源研究院12月19日发布了FlagEval“百模”评测结果,今年国产大模型与海外大模型战况焦灼。

在其闭源大模型评测能力总榜中,字节跳动的豆包通用模型pro拿到主观评测最高分,OpenAI的o1-mini拿到客观评测最高分;多模态模型评测总榜前三名依次是OpenAI的GPT-4o、字节跳动的豆包视觉理解模型、Anthropic的Claude 3.5 Sonnet。


▲大语言模型评测能力榜单前三名(图片来源:智源研究院)

此次评测包含国内外累计100多个开源和商业闭源的语言、视觉语言、文生图、文生视频、语音语言大模型,新增了对于AI模型任务解决能力、真实金融量化交易场景应用能力、辩论能力的考量标准。

同时,为了尽可能降低数据集泄露风险,并减少数据集饱和度问题,本次评测吸纳了近期发布的数据集、持续动态更新评测数据、替换了98%的题目以及提升了题目的难度。

其实去年6月,智源研究院就上线了大模型评测平台FlagEval,到现在该平台已有基于AI的辅助评测模型FlagJudge、多模态评测框架FlagEvalMM和针对大模型新能力的评测集。其与北京大学共建的HalluDial是目前全球规模最大的、对话场景下的幻觉评测集,包含超18000个轮次对话和超14万个回答。

从智源评测最新结果可以看出,今年下半年大模型发展更侧重综合能力提升与实际应用;多模态模型快速发展,该领域内涌现了不少新厂商与新AI模型;语言模型的发展则相对放缓。

得益于多模态能力的提升,AI模型最新K12学科测验综合得分相较于半年前提升了12.86%,但是仍与北京海淀学生平均水平存在差距。不过,AI模型普遍存在“文强理弱”的偏科情况,在英语和历史文科试题的表现上,已有AI模型超越了人类考生的平均分。

谷歌Gemini 1.5 Pro、阿里巴巴Qwen-VL-Max、Anthropic Claude 3.5 Sonnet、阶跃星辰Step 1V、南洋理工大学LLaVA-Onevision等7家AI模型的英语学科综合得分高于人类考生;阶跃星辰Step 1V、阿里巴巴Qwen-VL和Qwen-VL-Max、谷歌Gemini 1.5 Pro、南洋理工大学LLaVA-Onevision等12家AI模型的历史学科综合得分高于人类考生。


▲大模型K12学科测验历史学科卷面分数榜单前五名(图片来源:智源研究院)

一、豆包中文对话能力最强,OpenAI o1系列推理水平断层领先

基于智源评测结果,今年多款国产大模型综合能力超过海外知名大模型。

在闭源大模型主观评测中,豆包通用模型pro和百度ERNIE 4.0 Turbo的综合评分均领先于OpenAI的o1-preview、o1-mini、GPT-4o;而在开源大模型主观评测中,阿里巴巴Qwen2.5的综合评分高于Meta Llama 3.3和Llama 3.1。

主观评测更偏重考察大模型中文能力,而国产大模型在中文语言能力上具有普遍优势。

因此,从实际综合评分可以看出,国产大模型占据了闭源大模型主观评测榜单的大半壁江山。其前20名中共有15款国产大模型,占比75%,包括豆包通用模型pro、百度ERNIE 4.0 Turbo、阿里巴巴Qwen-Max、智谱华章GLM-4-Plus、阶跃星辰Step 2等。


▲大语言模型评测能力榜单主观评测前五名(图片来源:智源研究院)

不过,如果把大模型放在客观评测池子里比较,国产大模型的表现仍与海外大模型有着一定差距。

OpenAI的o1-mini获得客观评测的最高分64.57,同样属于o1系列的o1-preview,以60.36的综合评分位列榜单第二。该项评测中阿里巴巴的Qwen-Max和豆包通用模型pro各自的综合评分为57.60和56.49,与o1-mini之间大概有7分的分差,与o1-preview之间大概有3分的分差。


▲大语言模型评测能力榜单客观评测前五名(图片来源:智源研究院)

结合各项细分能力的评分来看,国产大模型更“重文轻理”,主要在推理、数学、代码等方面落后于OpenAI的大模型。例如,即便是侧重中文语境,OpenAI o1-preview仍拿到主观评测任务解决板块的最高分85.37,与第二名的79.52分和第三名的77.41分相比领先优势较为明显。

二、多模态评测,国产大模型各擅胜场

据智源研究院调研,今年市面上头部模型的多模态能力得到大幅提升,上半年参评的模型普遍无法生成正确的中文文字,但年末参评的头部模型已经具备中文文字生成能力。

从此次多模态模型评测数据来看,视觉语言模型平均排名前三分别是OpenAI的GPT-4o、豆包视觉理解模型和Anthropic的Claude 3.5 Sonnet。这三者中豆包的通用知识、文字识别等中文能力与其他两家拉开了较大差距,若单看英文图表理解表现则Claude的排名最靠前。

▲视觉语言模型排行榜前三名(图片来源:智源研究院)

面对文本、图片、视频、语音等多模态数据的处理时,豆包文生图模型、豆包视频生成模型“即梦P2.0 pro”分别在相应测试中位列全球第二,腾讯Hunyuan Image文生图水平全球第一,快手可灵1.5(高品质版)文生视频水平全球第一,阿里巴巴Qwen2-Audio语音语言水平全球第一。


▲文生视频模型排行榜前三名(左),文生图模型排行榜前三名(右)(图片来源:智源研究院)

目前,AI文生图的技术整体趋于成熟,但AI文生视频领域仍有较多挑战。现阶段,热门的AI文生视频模型有可灵1.5(高品质版)、即梦P2.0 pro、爱诗科技PixVerse V3、Minimax海螺AI、Pika同名AI模型Pika 1.5等。

其中,位列榜单第一、二名的可灵和即梦均可生成时长10s的视频,所生成的视频在图文一致性上也打成平手,但前者在AI视频真实性和视频质量略胜一筹,后者则在AI视频美学质量和分辨率上实现反超。

上述几家多模态模型中,只有阿里巴巴的走开源路线。对于多模态开源模型的实际效果,智源研究院方面称,虽然开源模型架构趋同,即通常采用语言塔和视觉塔的架构,但具体表现不一。其中较好的开源模型,在图文理解任务上正在缩小与头部闭源模型的能力差距,而长尾视觉知识与文字识别,以及复杂图文数据分析能力仍有提升空间。

三、AI模型更擅长反驳辩题,还可任职金融行业初级岗位

智源研究院在AI模型的年末评测中,新设置了对其辩论能力和金融量化交易能力的考核维度。

不到3个月前,智源研究院推出了一个名为FlagEval Debate的AI模型辩论平台。该平台主要从逻辑推理、观点理解和语言表达等核心能力维度,深入评估AI语言模型的能力差异。

据最新评测结果,一方面AI大模型普遍缺乏辩论框架意识,不具备围绕辩题、以整体逻辑综合阐述的能力;另一方面AI大模型在辩论中仍然存在“幻觉”问题,给出的论据通常经不起推敲。

相比于“正方”,AI大模型似乎更适合做辩论赛的“反方”。此次评测结果表明AI大模型更擅长反驳,各个模型所突出的辩论维度趋同。不过,遇到不同的辩题时AI模型间的表现差距会较为显著。

总体来看,在FlagEval Debate评测中,Anthropic Claude 3.5 Sonnet、零一万物Yi-Lighting、OpenAI o1-preview的综合水平排行前三。

而在金融量化交易领域,此次评测发现大模型已具备生成有回撤收益的策略代码的能力,能开发量化交易典型场景里的代码,头部AI模型能力已接近初级量化交易员的水平。

该榜单前5名依次是深度求索的DeepSeek-V2.5、OpenAI的GPT-4o、OpenAI的o1-mini、谷歌的Gemini 1.5 Pro和智谱华章的GLM-4-Plus。此外,百度、腾讯、字节跳动、商汤、阿里巴巴、百川智能和零一万物等7家国产大模型开发商均有产品上榜。


▲金融量化交易评测榜单前五名(图片来源:智源研究院)

智源研究院主要用知识问答、交易策略的跑通率和夏普指数、指标计算的跑通率和准确率、计算性能的跑通率这6项指标,来比较AI模型的金融量化交易能力。

其中,在知识问答方面,AI模型整体差异较小且整体分数偏高,大部分得分介于0.97到1之间,最低分为Meta Llama 3.1的0.69。然而,面对实际代码生成任务时,各AI模型差异较大,并且整体能力偏弱。

结语:国产大模型竞争加剧,下半场比拼商用质量

在这场“百家争鸣”中,国产大模型开发商们不仅巩固了其AI模型的中文能力优势,还进一步开发了文生图、文生视频、文生语音等多模态模型潜力。

过去一年,大模型领域也迎来了诸多新拐点,Scaling Law相对放缓、AI模型的数学能力从中学生水平跃升到博士生水平、OpenAI 12月底刚发布的推理模型o3性能接近甚至超过了人类水平、背靠AI模型的AI Agent概念和产品热度攀升。

下一步,AI模型将从卷参数量迈向卷应用场景,催熟商业化落地的效率和效益。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
大姑子旅游的账单寄给我!我转发婆婆,她秒回:这谁?

大姑子旅游的账单寄给我!我转发婆婆,她秒回:这谁?

纸鸢奇谭
2026-05-05 15:22:35
美记:詹姆斯没有给出任何承诺,G4很可能是他湖人生涯的谢幕战

美记:詹姆斯没有给出任何承诺,G4很可能是他湖人生涯的谢幕战

移动挡拆
2026-05-11 08:53:09
100个能救命的冷知识!关键时刻能保命,建议收藏

100个能救命的冷知识!关键时刻能保命,建议收藏

诗词天地
2026-04-22 14:06:22
你们有后悔过前几年大手大脚浪费掉的钱吗?网友:现在都买不起了

你们有后悔过前几年大手大脚浪费掉的钱吗?网友:现在都买不起了

另子维爱读史
2026-05-11 21:30:13
都打张本美和,孙颖莎能赢,为何王曼昱输球?邓亚萍赛后总结来了

都打张本美和,孙颖莎能赢,为何王曼昱输球?邓亚萍赛后总结来了

体育大学僧
2026-05-11 08:42:42
历史最差!恩比德连6次进次轮出局超哈登 12年生涯从未进分区决赛

历史最差!恩比德连6次进次轮出局超哈登 12年生涯从未进分区决赛

醉卧浮生
2026-05-11 06:39:30
耳朵是心梗的“预警器”?医生:耳朵出现这4个症状,抓紧去医院

耳朵是心梗的“预警器”?医生:耳朵出现这4个症状,抓紧去医院

摇感军事
2026-05-11 21:40:36
结婚登记169.7万对再创新低,算完结婚账,年轻人选择不签字!

结婚登记169.7万对再创新低,算完结婚账,年轻人选择不签字!

眼光很亮
2026-05-11 17:10:16
141:0压倒性优势,欧盟成员国通过重大草案,中国外交部:赞赏

141:0压倒性优势,欧盟成员国通过重大草案,中国外交部:赞赏

素衣读史
2026-05-11 21:36:46
连续上演惊天大逆转!一波流把比赛带走,梁靖崑击溃张本智和

连续上演惊天大逆转!一波流把比赛带走,梁靖崑击溃张本智和

中国足球的那些事儿
2026-05-11 00:11:10
回加拿大生活的大山,60岁须发皆白很沧桑,重庆妻子仍风韵犹存

回加拿大生活的大山,60岁须发皆白很沧桑,重庆妻子仍风韵犹存

素衣读史
2026-03-31 15:11:31
宿舍泡牛奶被批评?湖南不能泡牛奶大学火了

宿舍泡牛奶被批评?湖南不能泡牛奶大学火了

虔青
2026-05-11 14:00:40
水谷隼:日本队要想战胜中国队,必须要好好研究孙颖莎

水谷隼:日本队要想战胜中国队,必须要好好研究孙颖莎

懂球帝
2026-05-10 22:57:36
《GTA6》双平台画质引热议!评论区玩家已吵翻

《GTA6》双平台画质引热议!评论区玩家已吵翻

游民星空
2026-05-11 17:05:22
轻断食再次封神!复旦大学研究证实,让肝脏脂肪在5个月内少20.5%

轻断食再次封神!复旦大学研究证实,让肝脏脂肪在5个月内少20.5%

垚垚分享健康
2026-05-11 13:57:08
体检报告中,若3个指标都正常,基本可以排除很多疾病

体检报告中,若3个指标都正常,基本可以排除很多疾病

芹姐说生活
2026-05-08 19:06:29
真够狠!高市早苗算准时间,在特朗普访华前捅刀,中方完全没想到

真够狠!高市早苗算准时间,在特朗普访华前捅刀,中方完全没想到

标体
2026-05-11 16:36:50
女子买回小龙虾直接丢洗衣机,靠强力水流和高速旋转洗得干干净净,网友:没想到小龙虾是“晕死”的

女子买回小龙虾直接丢洗衣机,靠强力水流和高速旋转洗得干干净净,网友:没想到小龙虾是“晕死”的

南通濠生活
2026-05-05 10:47:11
普京放话,远东问题不能再拖!搁置70年,要完成斯大林的未竟之业

普京放话,远东问题不能再拖!搁置70年,要完成斯大林的未竟之业

朝子亥
2026-05-11 13:40:03
神奇的顺位!勇士队史第九次获得11号签,曾选克莱和皮特鲁斯

神奇的顺位!勇士队史第九次获得11号签,曾选克莱和皮特鲁斯

懂球帝
2026-05-11 14:17:20
2026-05-11 22:47:00
智东西 incentive-icons
智东西
智东西,AI产业新媒体,专注报道人工智能的前沿技术发展,和技术应用带来的千行百业产业变革。
11803文章数 117071关注度
往期回顾 全部

科技要闻

黄仁勋:你们赶上了一代人一次的大机会

头条要闻

重庆一57岁女医生驾奔驰酿车祸 操作不当致2死6伤

头条要闻

重庆一57岁女医生驾奔驰酿车祸 操作不当致2死6伤

体育要闻

梁靖崑:可能是最后一届了,想让大家记住这个我

娱乐要闻

“孕妇坠崖案”王暖暖称被霸凌协商解约

财经要闻

宗馥莉罢免销售负责人 部分业务将外包

汽车要闻

吉利银河“TT”申报图曝光 电动尾翼+激光雷达

态度原创

教育
游戏
房产
本地
公开课

教育要闻

最被QS2027看好的几所学校!

吧友卖高端显卡回归PS5!道出真相引无数玩家共鸣

房产要闻

产业赋能教育!翰林府与北师大的这场签约,绝不那么简单!

本地新闻

用苏绣的方式,打开江西婺源

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版