网易首页 > 网易号 > 正文 申请入驻

智源发布FlagEval「百模」评测结果,丈量模型生态变局

0
分享至

机器之心发布

机器之心编辑部

2024 年 12 月 19 日,智源研究院发布并解读国内外 100 余个开源和商业闭源的语言、视觉语言、文生图、文生视频、语音语言大模型综合及专项评测结果。

相较于今年 5 月的模型能力全方位评估,本次智源评测扩展、丰富、细化了任务解决能力内涵,新增了数据处理、高级编程和工具调用的相关能力与任务;首次增加了面向真实金融量化交易场景的应用能力评估,测量大模型的收益优化和性能优化等能力;首次探索基于模型辩论的对比评估方式,对模型的逻辑推理、观点理解、语言表达等核心能力进行深入分析。

智源评测发现,2024 年下半年大模型发展更聚焦综合能力提升与实际应用。多模态模型发展迅速,涌现了不少新的厂商与新模型,语言模型发展相对放缓。模型开源生态中,除了持续坚定开源的海内外机构,还出现了新的开源贡献者。

多种模态评测综合榜单

覆盖文本、语音、图片、视频理解与生成

语言模型,针对一般中文场景的开放式问答或者生成任务,模型能力已趋于饱和稳定,但是复杂场景任务的表现,国内头部语言模型仍然与国际一流水平存在显著差距。

语言模型主观评测重点考察模型中文能力,结果显示字节跳动 Doubao-pro-32k-preview、百度 ERNIE 4.0 Turbo 位居第一、第二,OpenAI o1-preview-2024-09-12、Anthropic Claude-3-5-sonnet-20241022 位列第三、第四,阿里巴巴 Qwen-Max-0919 排名第五;在语言模型客观评测中,OpenAI o1-mini-2024-09-12、Google Gemini-1.5-pro-latest 位列第一、第二,阿里巴巴 Qwen-max-0919、字节跳动 Doubao-pro-32k-preview 位居第三、第四,Meta Llama-3.3-70B-Instruct 排名前五。

视觉语言多模态模型,虽然开源模型架构趋同(语言塔 + 视觉塔),但表现不一,其中较好的开源模型在图文理解任务上正在缩小与头部闭源模型的能力差距,而长尾视觉知识与文字识别以及复杂图文数据分析能力仍有提升空间。评测结果显示,OpenAI GPT-4o-2024-11-20 与字节跳动 Doubao-Pro-Vision-32k-241028 先后领先于 Anthropic Claude-3-5-sonnet-20241022,阿里巴巴 Qwen2-VL-72B-Instruct 和 Google Gemini-1.5-Pro 紧随其后。

文生图多模态模型,今年上半年参评的模型普遍无法生成正确的中文文字,但此次参评的头部模型已经具备中文文字生成能力,但整体普遍存在复杂场景人物变形的情况,针对常识或知识性推理任务,小于 3 的数量关系任务表现有所提升,大于 3 的数量关系依然无法处理,涉及中国文化和古诗词理解的场景对于模型而言是不小的挑战。

评测结果显示,腾讯 Hunyuan Image 位列第一,字节跳动 Doubao image v2.1、Ideogram 2.0 分居第二、第三,OpenAI DALL・E 3、快手可图次之。

文生视频多模态模型,画质进一步提升,动态性更强,镜头语言更丰富,专场更流畅,但普遍存在大幅度动作变形,无法理解物理规律,物体消失、闪现、穿模的情况。评测结果显示,快手可灵 1.5(高品质)、字节跳动即梦 P2.0 pro、爱诗科技 PixVerse V3、Minimax 海螺 AI、Pika 1.5 位列前五。

语音语言模型,得益于文本大模型的进步,能力提升巨大,覆盖面更全,但在具体任务上与专家模型还存在一定差距,整体而言,性能好、通用能力强的开源语音语言模型偏少。

专项评测结果显示,阿里巴巴 Qwen2-Audio 位居第一,香港中文大学 & 微软 WavLLM、清华大学 & 字节跳动 Salmon 位列第二、第三,Nvidia Audio-Flamingo,MIT & IBM LTU 均进入前五。

四大专项评测榜单

多维度探索模型能力边界与应用潜能

本次评测,智源研究院再次联合与海淀区教师进修学校新编了 K12 全学段、多学科试卷,进一步考察大模型与人类学生的能力差异,其中,答案不唯一的主观题依然由海淀教师亲自评卷。得益于多模态能力的带动发展,模型本次 K12 学科测验综合得分相较于半年前提升了 12.86%,但是仍与海淀学生平均水平存在差距;在英语和历史文科试题的表现上,已有模型超越了人类考生的平均分;模型普遍存在 「文强理弱」的偏科情况。

FlagEval 大模型角斗场,是智源研究院今年 9 月推出的面向用户开放的模型对战评测服务,以反映用户对模型的偏好。目前,FlagEval 覆盖国内外约 50 款大模型,支持语言问答、多模态图文理解、文生图、文生视频四大任务的自定义在线或离线盲测。

此次评测,共有 29 个语言模型、16 个图文问答多模态模型、7 个文生图模型、14 个文生视频模型参评。评测发现,用户对模型的响应时间有更高要求,对模型输出的内容倾向于更结构化、标准化的格式。

作为模型对战评测服务 FlagEval 大模型角斗场的延展,今年 10 月智源研究院推出了模型辩论平台 FlagEval Debate,对模型的逻辑推理、观点理解以及语言表达等核心能力进行深入评估,以甄别语言模型的能力差异。

本次评测发现,大模型普遍缺乏辩论框架意识,不具备对辩题以整体逻辑进行综合阐述;大模型在辩论中依然存在「幻觉问题」,论据经不起推敲;大模型更擅长反驳,各个模型表现突出的辩论维度趋同,在不同的辩题中,模型表现差距显著。FlagEval Debate 评测结果表明,Anthropic Claude-3-5-sonnet-20241022、零一万物 Yi-Lighting、OpenAI o1-preview-2024-09-12 为前三名。

此次评测,智源研究院探索了基于实际应用场景的全新方法,通过评测模型的量化代码实现能力,探索模型在金融量化交易领域的潜在应用能力和商业价值。评测发现,大模型已经具备生成有回撤收益的策略代码的能力,能开发量化交易典型场景里的代码;在知识问答方面,模型整体差异较小,整体分数偏高,但在实际代码生成任务上,模型差异较大,整体能力偏弱;头部模型能力已接近初级量化交易员的水平。

金融量化交易评测结果显示,深度求索 Deepseek-chat,OpenAI GPT-4o-2024-08-06,Google Gemini-1.5-pro-latest 位列前三。

智源评测体系 FlagEval 再迭代

覆盖全球 800 + 开闭源模型

本次评测依托智源研究院自 2023 年 6 月上线的大模型评测平台 FlagEval,经过数次迭代,目前已覆盖全球 800 多个开闭源模型,包含 20 多种任务,90 多个评测数据集,超 200 万条评测题目。

在评测方法与工具上,智源研究院联合全国 10 余家高校和机构合作共建,探索基于 AI 的辅助评测模型 FlagJudge 和灵活全面的多模态评测框架 FlagEvalMM,并构建面向大模型新能力的有挑战的评测集,包括与北京大学共建的 HalluDial 幻觉评测集、与北师大共建的 CMMU 多模态评测集、多语言跨模态评测集 MG18、复杂代码评测集 TACO 以及长视频理解评测 MLVU 等,其中与北京大学共建的 HalluDial 是目前全球规模最大的对话场景下的幻觉评测集,有 18000 多个轮次对话,和 14 万多个回答。

为规避数据集泄露风险以及数据集饱和度问题,本次评测吸纳了近期发布的数据集并持续动态更新评测数据,替换了 98% 的题目,并提升了题目的难度。

智源研究院副院长兼总工程师林咏华在评测发布会上表示,FlagEval 评测体系一直坚守科学、权威、公正、开放的准则,通过技术方法平台持续创新,打造丈量模型能力的标尺,为大模型技术生态发展提供洞察。

2025 年,FlagEval 评测体系的发展将进一步探索动态评测与多任务能力评估体系,以评测为标尺感知大模型的发展趋势。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
袁立本人发声,回应病情

袁立本人发声,回应病情

大张的自留地
2026-05-26 14:21:07
10年麻将馆老板囗述:凡是爱打麻将的,没有一个人日子是过得好的

10年麻将馆老板囗述:凡是爱打麻将的,没有一个人日子是过得好的

小噎论事
2026-04-24 17:15:21
研究表明:性生活次数不达标,不管男女容易早衰且癌症风险增高!

研究表明:性生活次数不达标,不管男女容易早衰且癌症风险增高!

番外行
2026-05-11 08:49:20
多地接连关店、100万打水漂!网红地方小吃批量收割创业者

多地接连关店、100万打水漂!网红地方小吃批量收割创业者

财经八卦
2026-05-26 17:32:55
59岁“高考钉子户”梁实宣布参加第30次高考,不相信自己永远考不上大学:状态很好,感觉乱考都能上550分

59岁“高考钉子户”梁实宣布参加第30次高考,不相信自己永远考不上大学:状态很好,感觉乱考都能上550分

浙江之声
2026-05-27 08:14:58
CCTV5直播CBA总决赛,洛夫顿确定出战 上海三优势明显 赢球希望大

CCTV5直播CBA总决赛,洛夫顿确定出战 上海三优势明显 赢球希望大

中国篮坛快讯
2026-05-27 12:13:38
美国也被封锁了?中国这一技术全球领先,给美国15年也难以追赶上

美国也被封锁了?中国这一技术全球领先,给美国15年也难以追赶上

杰丝聊古今
2026-05-27 10:08:56
1986-2025年现象级收视大剧,你看过几部?

1986-2025年现象级收视大剧,你看过几部?

年代回忆
2026-05-22 20:57:16
瓦尔迪归来!莱斯特传奇39岁目标重返英超

瓦尔迪归来!莱斯特传奇39岁目标重返英超

绿茵情报局
2026-05-27 05:17:50
女子将男友送的包退货变现,钱却被原路退回男友, 大骂店家没情商

女子将男友送的包退货变现,钱却被原路退回男友, 大骂店家没情商

观世记
2026-05-26 17:04:26
国外女主播用脚底当屏幕映射直播《黑魂3》被封禁

国外女主播用脚底当屏幕映射直播《黑魂3》被封禁

3DM游戏
2026-05-26 14:08:05
打麻将老是输,怎么办?牢记以下八个禁忌定会让你十赌九赢!

打麻将老是输,怎么办?牢记以下八个禁忌定会让你十赌九赢!

神奇的锤子
2024-08-21 16:19:33
官宣!咪咕拿下2026世界杯转播权!

官宣!咪咕拿下2026世界杯转播权!

极目新闻
2026-05-27 15:07:02
20岁就耍大牌?巴萨天才惨遭国家队封杀

20岁就耍大牌?巴萨天才惨遭国家队封杀

阿謯体育
2026-05-14 16:51:43
沉默45年,中国终于迎来第二轮“严打”!目标改变总体战正式打响

沉默45年,中国终于迎来第二轮“严打”!目标改变总体战正式打响

闻识
2026-05-04 08:59:03
健身房“性丑闻”全复盘:人一旦丢掉底线,到底能有多恐怖?

健身房“性丑闻”全复盘:人一旦丢掉底线,到底能有多恐怖?

聪明小石头
2026-02-10 15:19:46
斯科塞斯女儿被喷"长得像冰箱",本人发视频回怼

斯科塞斯女儿被喷"长得像冰箱",本人发视频回怼

追星雷达站
2026-05-25 00:19:45
不能二次加热的6种食物!医生提醒:吃不完或倒掉,别乱节俭

不能二次加热的6种食物!医生提醒:吃不完或倒掉,别乱节俭

冷眼看世界728
2026-05-12 20:46:26
一百余名女兵被日军包围,为何聂荣臻下死命令:打光部队也要救出

一百余名女兵被日军包围,为何聂荣臻下死命令:打光部队也要救出

浩渺青史
2026-05-27 00:24:36
凯恩拜仁生涯第二次获欧洲金靴奖,追平盖德-穆勒和莱万纪录

凯恩拜仁生涯第二次获欧洲金靴奖,追平盖德-穆勒和莱万纪录

懂球帝
2026-05-26 20:40:30
2026-05-27 19:31:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
13097文章数 142653关注度
往期回顾 全部

科技要闻

韬定律:全球在卷纳米数 华为换了一把尺子

头条要闻

男子婚内打赏女主播超1700万 两人首次见面就确定关系

头条要闻

男子婚内打赏女主播超1700万 两人首次见面就确定关系

体育要闻

这群老阿姨,是最硬核的马刺球迷

娱乐要闻

王鹤棣风波连累父亲炸串店遭差评?

财经要闻

中国半导体的阳谋

汽车要闻

限时补贴价9.28-10.98万 MG 4X正式上市

态度原创

房产
游戏
旅游
艺术
公开课

房产要闻

地产投资又跌30%!连跌15月!海南房子将越来越少?

《巫师3》DLC突袭玩家嗨翻!官方承认因泄露提前公布

旅游要闻

青春逐梦,农文旅创未来!首届“新韵重庆·诗画三峡”高校农文旅挑战赛圆满收官

艺术要闻

这个夏天去苏州过几天清闲安逸的日子

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版