网易首页 > 网易科技 > 网易科技 > 正文

智源发布大模型评测榜:语言模型字节第一百度第二

0
分享至
智源研究院副院长兼总工程师林咏华:本年度两期评测,2024年5月大语言模型56家,到年底12月减少到46家,多模态在5月是32家,到12月增至42家,可以看出不少行业变化。

12月19日消息,智源研究院发布并解读国内外100余个开源和商业闭源的语言、视觉语言、文生图、文生视频、语音语言大模型综合及专项评测结果。

据介绍,相较于今年5月的模型能力全方位评估,本次智源评测扩展、丰富、细化了任务解决能力内涵,新增了数据处理、高级编程和工具调用的相关能力与任务;首次增加了面向真实金融量化交易场景的应用能力评估,测量大模型的收益优化和性能优化等能力;首次探索基于模型辩论的对比评估方式,对模型的逻辑推理、观点理解、语言表达等核心能力进行深入分析。

智源评测发现,2024年下半年大模型发展更聚焦综合能力提升与实际应用。多模态模型发展迅速,涌现了不少新的厂商与新模型,语言模型发展相对放缓。模型开源生态中,除了持续坚定开源的海内外机构,还出现了新的开源贡献者。

语言模型主观评测重点考察模型中文能力,结果显示字节跳动Doubao-pro-32k-preview、百度ERNIE 4.0 Turbo位居第一、第二,OpenAI o1-preview-2024-09-12、Anthropic Claude-3-5-sonnet-20241022位列第三、第四,阿里巴巴Qwen-Max-0919排名第五;在语言模型客观评测中,OpenAI o1-mini-2024-09-12、Google Gemini-1.5-pro-latest 位列第一、第二,阿里巴巴Qwen-max-0919、字节跳动Doubao-pro-32k-preview位居第三、第四,Meta Llama-3.3-70B-Instruct排名前五。

视觉语言多模态模型,虽然开源模型架构趋同(语言塔+视觉塔),但表现不一,其中较好的开源模型在图文理解任务上正在缩小与头部闭源模型的能力差距,而长尾视觉知识与文字识别以及复杂图文数据分析能力仍有提升空间。评测结果显示,OpenAI GPT-4o-2024-11-20与字节跳动Doubao-Pro-Vision-32k-241028先后领先于Anthropic Claude-3-5-sonnet-20241022,阿里巴巴Qwen2-VL-72B-Instruct和Google Gemini-1.5-Pro紧随其后。

文生图多模态模型,今年上半年参评的模型普遍无法生成正确的中文文字,但此次参评的头部模型已经具备中文文字生成能力,但整体普遍存在复杂场景人物变形的情况,针对常识或知识性推理任务,小于3的数量关系任务表现有所提升,大于3的数量关系依然无法处理,涉及中国文化和古诗词理解的场景对于模型而言是不小的挑战。评测结果显示,腾讯Hunyuan Image位列第一,字节跳动Doubao image v2.1、Ideogram 2.0分居第二、第三,OpenAI DALL·E 3、快手可图次之。

文生视频多模态模型,画质进一步提升,动态性更强,镜头语言更丰富,专场更流畅,但普遍存在大幅度动作变形,无法理解物理规律,物体消失、闪现、穿模的情况。评测结果显示,快手可灵1.5(高品质)、字节跳动即梦 P2.0 pro、爱诗科技PixVerse V3、Minimax 海螺AI、Pika 1.5位列前五。

语音语言模型,得益于文本大模型的进步,能力提升巨大,覆盖面更全,但在具体任务上与专家模型还存在一定差距,整体而言,性能好、通用能力强的开源语音语言模型偏少。专项评测结果显示,阿里巴巴Qwen2-Audio位居第一,香港中文大学&微软WavLLM、清华大学&字节跳动Salmon位列第二、第三,Nvidia Audio-Flamingo,MIT & IBM LTU均进入前五。

本次评测,智源研究院再次联合与海淀区教师进修学校新编了K12全学段、多学科试卷,进一步考察大模型与人类学生的能力差异,其中,答案不唯一的主观题依然由海淀教师亲自评卷。得益于多模态能力的带动发展,模型本次K12学科测验综合得分相较于半年前提升了12.86%,但是仍与海淀学生平均水平存在差距;在英语和历史文科试题的表现上,已有模型超越了人类考生的平均分;模型普遍存在“文强理弱”的偏科情况。

FlagEval大模型角斗场,是智源研究院今年9月推出的面向用户开放的模型对战评测服务,以反映用户对模型的偏好。目前,FlagEval覆盖国内外约50款大模型,支持语言问答、多模态图文理解、文生图、文生视频四大任务的自定义在线或离线盲测。此次评测,共有29个语言模型、16个图文问答多模态模型、7个文生图模型、14个文生视频模型参评。评测发现,用户对模型的响应时间有更高要求,对模型输出的内容倾向于更结构化、标准化的格式。

作为模型对战评测服务FlagEval大模型角斗场的延展,今年10月智源研究院推出了模型辩论平台FlagEval Debate,对模型的逻辑推理、观点理解以及语言表达等核心能力进行深入评估,以甄别语言模型的能力差异。本次评测发现,大模型普遍缺乏辩论框架意识,不具备对辩题以整体逻辑进行综合阐述;大模型在辩论中依然存在“幻觉问题”,论据经不起推敲;大模型更擅长反驳,各个模型表现突出的辩论维度趋同,在不同的辩题中,模型表现差距显著。FlagEval Debate评测结果表明,Anthropic Claude-3-5-sonnet-20241022、零一万物Yi-Lighting、OpenAI o1-preview-2024-09-12为前三名。

此次评测,智源研究院探索了基于实际应用场景的全新方法,通过评测模型的量化代码实现能力,探索模型在金融量化交易领域的潜在应用能力和商业价值。评测发现,大模型已经具备生成有回撤收益的策略代码的能力,能开发量化交易典型场景里的代码;在知识问答方面,模型整体差异较小,整体分数偏高,但在实际代码生成任务上,模型差异较大,整体能力偏弱;头部模型能力已接近初级量化交易员的水平。金融量化交易评测结果显示,深度求索 Deepseek-chat,OpenAI GPT-4o-2024-08-06,Google Gemini-1.5-pro-latest位列前三。

据悉,本次评测依托智源研究院自2023年6月上线的大模型评测平台FlagEval,经过数次迭代,目前已覆盖全球800多个开闭源模型,包含20多种任务,90多个评测数据集,超200万条评测题目。

在评测方法与工具上,智源研究院联合全国10余家高校和机构合作共建,探索基于AI的辅助评测模型 FlagJudge和灵活全面的多模态评测框架FlagEvalMM,并构建面向大模型新能力的有挑战的评测集,包括与北京大学共建的HalluDial幻觉评测集、与北师大共建的CMMU多模态评测集、多语言跨模态评测集MG18、复杂代码评测集TACO以及长视频理解评测MLVU等,其中与北京大学共建的HalluDial是目前全球规模最大的对话场景下的幻觉评测集,有18000多个轮次对话,和14万多个回答。

为规避数据集泄露风险以及数据集饱和度问题,本次评测吸纳了近期发布的数据集并持续动态更新评测数据,替换了98%的题目,并提升了题目的难度。

智源研究院副院长兼总工程师林咏华在评测发布会上表示,FlagEval评测体系一直坚守科学、权威、公正、开放的准则,通过技术方法平台持续创新,打造丈量模型能力的标尺,为大模型技术生态发展提供洞察。2025年,FlagEval评测体系的发展将进一步探索动态评测与多任务能力评估体系,以评测为标尺感知大模型的发展趋势。(定西)

本文来自网易科技报道,更多资讯和深度内容,关注我们。

相关推荐
热点推荐
张雨绮换脸成功!说不出来哪里变了,好像又都变了

张雨绮换脸成功!说不出来哪里变了,好像又都变了

爆角追踪
2025-12-18 16:05:56
俄领导人威胁称,如果谈判失败,俄罗斯将“以武力”夺取领土

俄领导人威胁称,如果谈判失败,俄罗斯将“以武力”夺取领土

山河路口
2025-12-17 22:34:47
好利来大公子穿女装惹争议!化妆做美甲自称"妹妹",被骂到关账号

好利来大公子穿女装惹争议!化妆做美甲自称"妹妹",被骂到关账号

派大星纪录片
2025-12-18 12:14:15
佳能63万“恶意赔偿”,咋这么明目张胆?

佳能63万“恶意赔偿”,咋这么明目张胆?

胡严乱语
2025-12-16 20:29:21
珠海一小区业主放火烧自家房子,事前疑在群里发预告,物业:火已扑灭无伤亡,警方介入

珠海一小区业主放火烧自家房子,事前疑在群里发预告,物业:火已扑灭无伤亡,警方介入

极目新闻
2025-12-18 17:10:51
福建舰、山东舰的两个相同点

福建舰、山东舰的两个相同点

新民周刊
2025-12-18 09:13:33
西药见效快!中国三大运营商为美国解决诈骗电话,拦截率达99%

西药见效快!中国三大运营商为美国解决诈骗电话,拦截率达99%

垛垛糖
2025-12-18 12:16:13
我给市长写了8年发言稿,关系户顶了我位置,大会前稿子却出现问题

我给市长写了8年发言稿,关系户顶了我位置,大会前稿子却出现问题

张道陵秘话
2025-12-14 21:35:05
索尼将退出中国,3万员工一夜失业,一代人的青春落幕

索尼将退出中国,3万员工一夜失业,一代人的青春落幕

胡严乱语
2025-12-18 14:25:25
海南封关首日实探三亚免税城:免税价叠加消费券,苹果手机最高可减1000元

海南封关首日实探三亚免税城:免税价叠加消费券,苹果手机最高可减1000元

极目新闻
2025-12-18 12:08:09
重大突破!美国发明世界最小机器人,仅细胞大小,7分钱一个!

重大突破!美国发明世界最小机器人,仅细胞大小,7分钱一个!

徐德文科学频道
2025-12-17 21:01:47
越扒越有!女教师跳楼再添猛料,原来不止被父母逼婚这么简单

越扒越有!女教师跳楼再添猛料,原来不止被父母逼婚这么简单

皮蛋儿电影
2025-12-17 22:03:03
博主:曾凡博确定不加盟澳大利亚NBL球队,他只剩NCAA和CBA两个选择

博主:曾凡博确定不加盟澳大利亚NBL球队,他只剩NCAA和CBA两个选择

懂球帝
2025-12-18 16:49:14
本田将暂停在华工厂生产

本田将暂停在华工厂生产

第一财经资讯
2025-12-18 13:51:09
东亚锦标赛太残酷了:中国男足主场0-3日本,遭遇开门黑+排名垫底

东亚锦标赛太残酷了:中国男足主场0-3日本,遭遇开门黑+排名垫底

侧身凌空斩
2025-12-18 16:30:30
市值蒸发超50%!成都网红楼盘600万房子,如今挂牌298万无人问津

市值蒸发超50%!成都网红楼盘600万房子,如今挂牌298万无人问津

火山詩话
2025-12-18 14:38:42
故宫一件我一件的含金量又上升了,南京博物馆藏品细节越挖多了!

故宫一件我一件的含金量又上升了,南京博物馆藏品细节越挖多了!

你食不食油饼
2025-12-18 02:04:53
再见雄鹿!湖人7换3交易方案,詹姆斯联手字母哥,总冠军没悬念了

再见雄鹿!湖人7换3交易方案,詹姆斯联手字母哥,总冠军没悬念了

老侃侃球
2025-12-18 10:08:28
俄军骑兵重现战场,乌军单日歼敌1730人

俄军骑兵重现战场,乌军单日歼敌1730人

史政先锋
2025-12-17 21:01:32
高标准梯田(农田)荒废的背后 完全不切实际一场闹剧

高标准梯田(农田)荒废的背后 完全不切实际一场闹剧

原某报记者
2025-12-17 14:31:27
2025-12-18 18:11:00

科技要闻

2025新一代人工智能创业大赛

头条要闻

南京博物院称受赠5幅画被鉴定为"假" 捐赠者后人回应

头条要闻

南京博物院称受赠5幅画被鉴定为"假" 捐赠者后人回应

体育要闻

巴黎首夺世界级冠军 加冕6冠王比肩巴萨拜仁

娱乐要闻

丝芭放大招了!实名举报鞠婧祎经济犯罪

财经要闻

尹艳林:呼吁加快2.5亿新市民落户进程

汽车要闻

在零下30℃的考场里 凡尔赛C5 X和508L拿到了"稳"的证明

态度原创

家居
健康
本地
旅游
公开课

家居要闻

高端私宅 理想隐居圣地

这些新疗法,让化疗不再那么痛苦

本地新闻

云游安徽|决战烽火照古今,千秋一脉看宿州

旅游要闻

陆家嘴高楼与石库门建筑同框,这个观光厅解锁上海登高观光新视角

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版
×