网易首页 > 网易号 > 正文 申请入驻

全球大模型前十座次重排:DeepSeek占2席,还有3款国产大模型上榜

0
分享至

2025年2月消息:全球知名的AI模型评测平台Chatbot Arena(大模型竞技场)公布了最新一期榜单(Chatbot Arena LLM Leaderboard)。这是业界公认的最公正、最权威榜单之一,采用匿名方式将大模型两两组队,交给用户进行盲测(提出任何相同问题),根据真实对话体验对模型能力进行投票。如果一次回答不能确定,用户可以继续聊天,直到确定获胜者;如果在对话中透露了模型的身份,则不会计算投票。

公开资料显示:Chatbot Arena于2023年5月推出,由大型模型系统组织(Large Model Systems Organization)创建,目前集成190多种AI模型。LMYSY Org是由加州大学伯克利分校、加州大学圣地亚哥分校以及卡耐基梅隆大学的学生与教职员工共同组建的公开性质的研究团体,旨在使大型模型技术更加普及和可访问。

大年初一(1月29日)正式升级发布的Qwen2.5-Max,领先DeepSeek V3、OpenAI O1-Mini、谷歌Gemini 2.0 Flash-Lite (Preview) 等模型,以1332分排在全球第七名,也是非推理类的中国大模型冠军。与此同时,数学和编程等单项能力排名第一,在硬提示(Hard prompts)方面位居第二。【注:硬提示是由人工手动设计的文本提示,包含离散的输入标记,与软提示是指导大语言模型行为的两种不同方法】

Qwen2.5-Max是阿里云通义千问旗舰版模型,采用超大规模MoE(Mixture of Experts,混合专家)架构,基于超过20万亿token(词元)的预训练数据及精心设计的后训练方案进行训练。结合监督微调(SFT)和强化学习人类反馈(RLHF),在长文本生成、指令遵循等任务中表现更贴近人类偏好。【注:tokens是自然语言处理NLP领域中的重要概念,指文本中最小的有意义的单元,可以是单词、数字、标点符号或其他字符】

值得一提的是,就在Qwen2.5-Max发布的前一天,阿里云通义千问开源了全新的视觉理解模型Qwen2.5-VL,推出3B、7B、72B三个尺寸版本。自2023年8月开源以来,其相继推出Qwen、Qwen1.5、Qwen2、Qwen2.5等四代模型,涵盖大语言模型、多模态模型、数学模型、代码模型等数十款产品,率先实现“全尺寸、全模态、多场景”的开源布局。全球基于Qwen的衍生模型超过9万个,已超越Llama成为全球最大的人工智能模型族群。

近日,“AI教母”李飞飞团队以通义千问Qwen2.5-32B-Instruct开源模型为底座,在16块英伟达H100 GPU上监督微调26分钟,便训练出性能比肩OpenAI O1和DeepSeek R1等AI推理模型s1-32B。训练成本仅50美元,神奇“低成本”是建立在已具备强大能力的通义千问开源基础模型等“巨人肩膀”之上完成的。

DeepSeek(深度求索)无疑是今年春节假期最火爆的话题之一。这家人工智能公司由幻方量化在2023年出资设立,总部位于杭州,与登上春晚的宇树科技、《黑神话:悟空》发行商游戏科学、强脑科技、云深处科技、群核科技并称为“杭州六小龙”。

2024年12月26日推出的DeepSeek-V3,采用高达6710亿参数的MoE架构,每秒能够处理60个token,比V2快了3倍。时隔不到一个月,2025年1月20日公司又发布其首个通过强化学习 (RL) 训练的推理模型 DeepSeek-R1。

其训练成本仅为557.6万美元,使用的还是H800 GPU(英伟达针对中国市场的低配版GPU)。相比之下,同为开源模型的Meta Llama-3.1模型训练成本超过6000万美元,OpenAI GPT-4o模型训练成本高达1亿美元,且使用的是性能更加优异的H100 GPU集群。

除了深度求索和阿里云通义千问,StepFun(阶跃星辰)的Step-2-16K-Exp和智谱AI的GLM-4-Plus-0111跻身前十。有业内人士分析认为,随着越来越多国产大模型的崛起,低成本开发模式和极具竞争力的使用价格,动摇了美国AI领军企业的巨额研发预算,将让整个AI产业加速变革。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
97岁田华现状曝光,和小孙子相依为命,住破旧老房子,日子清贫

97岁田华现状曝光,和小孙子相依为命,住破旧老房子,日子清贫

以茶带书
2025-12-02 18:11:43
女孩当小姐,一晚要提供4到5次上门服务,2015年被亲人点到不赴约

女孩当小姐,一晚要提供4到5次上门服务,2015年被亲人点到不赴约

汉史趣闻
2025-11-08 09:27:32
小叔子出车祸,老公让我拿手术费,我妈:你老公给你小叔子买了套房

小叔子出车祸,老公让我拿手术费,我妈:你老公给你小叔子买了套房

浮生实录集
2025-11-13 14:40:02
商场里看到一个小女孩,长得真像刘亦菲

商场里看到一个小女孩,长得真像刘亦菲

乡野小珥
2026-02-08 12:18:03
当下,已经没有人愿意好好上班了!

当下,已经没有人愿意好好上班了!

黯泉
2026-01-21 22:52:39
真的洗心革面了?立陶宛删除18字,北京已读不回,女总理想要面谈

真的洗心革面了?立陶宛删除18字,北京已读不回,女总理想要面谈

史智文道
2026-02-09 19:55:51
鸡蛋再次被关注!研究显示:老年人常吃鸡蛋,不过半年或有4改善

鸡蛋再次被关注!研究显示:老年人常吃鸡蛋,不过半年或有4改善

岐黄传人孙大夫
2026-01-13 10:53:35
电影《爆水管》总票房破亿

电影《爆水管》总票房破亿

界面新闻
2026-02-09 12:36:41
台军女飞行员郭文静:只要长官敢下令,我会毫不犹豫的击落歼20!

台军女飞行员郭文静:只要长官敢下令,我会毫不犹豫的击落歼20!

顾史
2026-01-21 21:04:39
郑丽文翻脸不认人!抛“两岸和平框架”!连战题“和”字成焦点!

郑丽文翻脸不认人!抛“两岸和平框架”!连战题“和”字成焦点!

蓝色海边
2026-02-09 01:22:36
伦纳德表达不满:以为过去表现不错,结果哈登哈祖巴茨都被交易

伦纳德表达不满:以为过去表现不错,结果哈登哈祖巴茨都被交易

爱体育
2026-02-08 23:15:37
石破茂回应中日现状,不是打得过打不过的问题,而是能不能活下去

石破茂回应中日现状,不是打得过打不过的问题,而是能不能活下去

笑谈历史阿晡
2026-01-14 11:26:05
打的越好越没得上场.....他们实在太想输球了!!!

打的越好越没得上场.....他们实在太想输球了!!!

柚子说球
2026-02-08 20:28:25
重磅!苏州楼市新政!“以旧换新”升级!

重磅!苏州楼市新政!“以旧换新”升级!

华瑶说房
2026-02-09 15:13:30
乌克兰高兴早了,俄军中将抢救成功:不到48小时,阿联酋抓住杀手

乌克兰高兴早了,俄军中将抢救成功:不到48小时,阿联酋抓住杀手

霁寒飘雪
2026-02-09 11:35:39
婆婆当了近四十年的老师,今年刚好退休,我还以为退休金最多4000

婆婆当了近四十年的老师,今年刚好退休,我还以为退休金最多4000

五元讲堂
2026-01-26 11:26:26
高市早苗咬牙切齿说一句话,普京该冒火了,美国就等着看中国反应

高市早苗咬牙切齿说一句话,普京该冒火了,美国就等着看中国反应

头条爆料007
2026-02-09 08:26:39
博主:山东泰山确实在谈多哥国脚中卫肯尼迪-博阿滕

博主:山东泰山确实在谈多哥国脚中卫肯尼迪-博阿滕

懂球帝
2026-02-09 18:18:12
西蒙斯真去钓鱼了,钓上一条1069亿的“大金枪”

西蒙斯真去钓鱼了,钓上一条1069亿的“大金枪”

体育大生意
2026-02-09 10:36:12
原来她早已离世!自己定墓园和寿衣,3200万遗产全给姐姐

原来她早已离世!自己定墓园和寿衣,3200万遗产全给姐姐

不写散文诗
2026-01-24 23:27:12
2026-02-09 20:59:00
火星人杂谈 incentive-icons
火星人杂谈
追踪科技、制造业、大消费领域最新动向
2566文章数 306关注度
往期回顾 全部

科技要闻

实测|字节新模型带着音效和复杂运镜杀疯了

头条要闻

爱泼斯坦案亚裔受害者:首次见他就与2人发生关系

头条要闻

爱泼斯坦案亚裔受害者:首次见他就与2人发生关系

体育要闻

创中国冬奥最佳战绩!19岁速滑新星含泪向天拉勾

娱乐要闻

央视电影活动名场面!明星站位太讲究

财经要闻

沪深北交易所优化再融资 释放3个信号

汽车要闻

长安将搭钠电池 好比汽车要装柴油机?

态度原创

旅游
艺术
游戏
健康
公开课

旅游要闻

赶个酉YOUNG年!重庆酉阳全域景区联动打造春节文旅新地标

艺术要闻

柔和的抽象静物画,英国当代画家Sonia Barton

马年第一爽!被新倩女追着喂福利的春节,这波“真香”我直接躺赢

转头就晕的耳石症,能开车上班吗?

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版