网易首页 > 网易号 > 正文 申请入驻

Artificial Analysis:DeepSeek成为世界前二AGI实验室

0
分享至

模型与API独立分析公司Artificial Analysis @ArtificialAnlys 对DeepSeek R1-0528结论如下:

DeepSeek R1 一举超越 xAI、Meta 和 Anthropic,与谷歌并列成为全球第二大人工智能实验室,并成为开源权重领域无可争议的领导者

DeepSeek R1 0528 版本在 Artificial Analysis 智能指数(针对所有顶尖模型独立进行的7项主流评估所构成的综合指数)中的得分从60分跃升至68分。这一提升幅度与 OpenAI 的 o1 模型到 o3 模型的差距(从62分到70分)相当

这意味着 DeepSeek R1 的智能水平已超越 xAI 的 Grok 3 mini(高水准版)、英伟达的 Llama Nemotron Ultra、Meta 的 Llama 4 Maverick、阿里的通义千问 Qwen 3 253B,并与谷歌的 Gemini 2.5 Pro 持平

模型性能提升详解

智能水平全面提升:在 AIME 2024(数学竞赛,+21分)、LiveCodeBench(代码生成,+15分)、GPQA Diamond(科学推理,+10分)和《人类最后考卷》(推理与知识,+6分)等多个方面实现了显著飞跃

架构保持不变:R1-0528 是一个训练后更新版本,其 V3/R1 架构并未改变——依然是拥有6710亿总参数和370亿激活参数的大模型

编程能力大幅跃进:在 Artificial Analysis 编程能力指数中,R1 目前已追平 Gemini 2.5 Pro,仅次于 o4-mini(高水准版)和 o3 模型

Token 消耗量增加:R1-0528 在完成 Artificial Analysis 智能指数评估时消耗了9900万 Token,比初代 R1 的7100万 Token 多出40%——也就是说,新版 R1 的“思考”时间更长。但这并非我们所见过的最高 Token 消耗量:Gemini 2.5 Pro 的 Token 消耗量比 R1-0528 还要多30%

对AI领域的启示

开源与闭源模型差距前所未有地缩小:开源权重模型在智能增益方面持续与闭源专有模型保持同步。DeepSeek 在今年1月发布的 R1 是首个达到全球第二位置的开源权重模型,而今天 R1 的更新使其重回这一高位

中美AI水平持续并驾齐驱:来自中国AI实验室的模型几乎完全追平了美国同行,本次发布延续了这一新兴趋势。截至今日,在 Artificial Analysis 智能指数中,DeepSeek 已领先包括 Anthropic 和 Meta 在内的美国AI实验室

强化学习驱动性能提升:DeepSeek 在保持原有 R1 版本架构和预训练数据不变的情况下,实现了智能水平的显著提升。这进一步凸显了训练后调优(尤其是针对采用强化学习技术训练的推理模型)日益增长的重要性。OpenAI 曾披露其 o1 到 o3 模型的强化学习计算规模扩大了10倍——DeepSeek 刚刚证明,到目前为止,他们有能力跟上 OpenAI 在强化学习算力扩展方面的步伐。扩展强化学习所需的算力远低于扩展预训练,为实现智能增益提供了一条高效路径,尤其能为那些GPU资源相对紧张的AI实验室提供支持

source:

https://x.com/ArtificialAnlys/status/1928071179115581671

⭐星标AI寒武纪,好内容不错过

用你的在看告诉我~

求赞

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
泰山0-2输球不可怕,宿茂臻言论引争议

泰山0-2输球不可怕,宿茂臻言论引争议

墨史轩
2026-07-06 05:28:47
7.6-周一,每日足球推荐!今日两场比赛分析及推测!

7.6-周一,每日足球推荐!今日两场比赛分析及推测!

老Y
2026-07-06 05:10:07
湖人队传闻:追求库明加受到了勒布朗·詹姆斯自由球员决定影响

湖人队传闻:追求库明加受到了勒布朗·詹姆斯自由球员决定影响

好火子
2026-07-06 00:34:45
大反转!韩媒:洪明甫赴美非潜逃另有原因,若有传唤他会立刻回国

大反转!韩媒:洪明甫赴美非潜逃另有原因,若有传唤他会立刻回国

新杀猪的秀才
2026-07-06 01:05:07
三叔蹭我车回老家,半路竟然问我要车费,我立马把他扔在服务区

三叔蹭我车回老家,半路竟然问我要车费,我立马把他扔在服务区

醉爱讲故事
2025-09-05 12:00:10
走面风波将迎来大结局!韩红宣布退出公益行业,留几手曾一语道破

走面风波将迎来大结局!韩红宣布退出公益行业,留几手曾一语道破

皮皮电影
2026-07-04 12:35:06
美国大满贯四强战:王艺迪零封,韩国全军覆没

美国大满贯四强战:王艺迪零封,韩国全军覆没

7号观察室
2026-07-06 05:23:38
“奶茶袋子装大疆!”初三女孩收礼变脸被骂,面相学果然权威!

“奶茶袋子装大疆!”初三女孩收礼变脸被骂,面相学果然权威!

林林先生
2026-06-30 09:20:03
四部热播的烂剧,没有最烂只有更烂,一部没看算你火眼金睛!

四部热播的烂剧,没有最烂只有更烂,一部没看算你火眼金睛!

动物奇奇怪怪
2026-07-06 00:06:07
半导体材料最狠的卡脖子!10家龙头公司,谁在真突破谁在讲故事?

半导体材料最狠的卡脖子!10家龙头公司,谁在真突破谁在讲故事?

奇思妙想生活家
2026-07-05 20:57:39
秦海璐变卖房产,清空全部资产,凑出近亿身家,绝境兜底救下刘涛

秦海璐变卖房产,清空全部资产,凑出近亿身家,绝境兜底救下刘涛

秋别离
2026-06-13 15:50:00
老天奶。。baby这啥裤子啊。。

老天奶。。baby这啥裤子啊。。

黄丽搞笑小能手
2026-07-05 21:19:34
天热跑步的“尴尬三幕”,女跑友直呼:太羞羞!

天热跑步的“尴尬三幕”,女跑友直呼:太羞羞!

马拉松跑步健身
2026-07-01 06:30:08
女子领了结婚证全程没笑意,捧着红本满眼痛苦,评论区却夸真实

女子领了结婚证全程没笑意,捧着红本满眼痛苦,评论区却夸真实

捣蛋窝
2026-06-28 05:03:42
主持人问张晋:你老婆陪了刘銮雄6年,张晋的回答像教科书般标准

主持人问张晋:你老婆陪了刘銮雄6年,张晋的回答像教科书般标准

史行途
2026-07-01 22:55:35
湖南女医生出轨17分钟视频:别站在道德制高点,批判她的贞操

湖南女医生出轨17分钟视频:别站在道德制高点,批判她的贞操

娜乌和西卡
2025-11-10 13:50:19
霍启刚意外:大婚风波后霍启山被港府点名,两人是同类人

霍启刚意外:大婚风波后霍启山被港府点名,两人是同类人

赵钇是个热血青年
2026-07-04 20:29:06
孙颖莎也没想到,国乒男单全军覆没没多久,樊振东传来特大喜讯

孙颖莎也没想到,国乒男单全军覆没没多久,樊振东传来特大喜讯

墨印斋
2026-07-06 05:57:15
复旦毕业、投行出身,她靠一瓶卸妆油年入10亿

复旦毕业、投行出身,她靠一瓶卸妆油年入10亿

中国企业家杂志
2026-07-04 18:30:44
吴艳妮研究生毕业了:明日之我永远不改初心

吴艳妮研究生毕业了:明日之我永远不改初心

红星新闻
2026-07-05 15:06:45
2026-07-06 06:39:00
AI寒武纪 incentive-icons
AI寒武纪
专注于人工智能,科技领域
1042文章数 395关注度
往期回顾 全部

科技要闻

华为:逻辑折叠将大幅提升麒麟CPU核心频率

头条要闻

世界杯-挪威2-1巴西首进八强 哈兰德梅开二度

头条要闻

世界杯-挪威2-1巴西首进八强 哈兰德梅开二度

体育要闻

姆巴佩点走巴拉圭:巴黎三代左锋传承

娱乐要闻

霉霉婚礼照片泄露 有四人违规

财经要闻

揭秘跨境“对敲”换汇黑产

汽车要闻

方程豹钛9内饰曝光 用上了长联屏设计/下半年上市

态度原创

教育
健康
旅游
时尚
军事航空

教育要闻

公办幼儿园教师工资首次纳入财政保障,全面减轻教师非教育教学负担

听说少吃点能抗衰老?专家讲解!

旅游要闻

守着抚仙湖过日子的古村寨,两个彝语汉字,道尽祖辈渔耕一生!

3年赚46亿,杨幂喊出一个安徽富豪

军事要闻

普京与特朗普通话85分钟 细节公布

无障碍浏览 进入关怀版