网易首页 > 网易号 > 正文 申请入驻

阿里突放大招,国产大模型又有重磅!

0
分享至

来源:证券时报

大年初一,阿里发出大模型新年第一弹。

北京时间1月29日凌晨1点半,阿里云通义千问旗舰版模型Qwen2.5-Max正式升级发布。据其介绍,Qwen2.5-Max模型是阿里云通义团队对MoE模型的最新探索成果,预训练数据超过20万亿tokens,展现出极强劲的综合性能,在多项公开主流模型评测基准上录得高分,全面超越了目前全球领先的开源MoE模型以及最大的开源稠密模型。

与Qwen2.5-Max进行对比的模型,就包括了最近火爆海内外的DeepSeek旗下的V3模型。受新模型的影响,1月28日阿里巴巴美股拉升,一度涨超7%,收盘录得6.71%的涨幅,报96.03美元/股。1月29日盘中再度大涨,收盘涨0.71%,收于96.715美元。

阿里新模型性能全球领先

阿里通义千问团队表示,Qwen2.5-Max采用超大规模MoE(混合专家)架构,基于超过20万亿token的预训练数据及精心设计的后训练方案进行训练。

据介绍,Qwen2.5-Max在知识、编程、全面评估综合能力的以及人类偏好对齐等主流权威基准测试上,展现出全球领先的模型性能。指令模型是所有人可直接对话体验到的模型版本,在Arena-Hard、LiveBench、LiveCodeBench、GPQA-Diamond及MMLU-Pro等基准测试中,Qwen2.5-Max比肩Claude-3.5-Sonnet,并几乎全面超越了GPT-4o、DeepSeek-V3及Llama-3.1-405B。

同时,基座模型反映模型裸性能,由于无法访问GPT-4o和Claude-3.5-Sonnet等闭源模型的基座模型,通义团队将Qwen2.5-Max与目前领先的开源MoE模型DeepSeek V3、最大的开源稠密模型Llama-3.1-405B,以及同样位列开源稠密模型前列的Qwen2.5-72B进行了对比。结果显示,在所有11项基准测试中,Qwen2.5-Max全部超越了对比模型。

记者还注意到,除了发布Qwen2.5-Max以外,1月28日,阿里还开源了全新的视觉理解模型Qwen2.5-VL,推出了3B、7B、72B三个尺寸版本。其中,旗舰版Qwen2.5-VL-72B在13项权威评测中夺得视觉理解冠军,全面超越GPT-4o与Claude3.5。

受新模型的影响,1月28日和29日阿里巴巴美股拉升明显。Qwen2.5-Max的发布引发了资本市场关于重估中国AI资产的讨论。如果将阿里巴巴美股上市后的股价走势时间轴拉长,其股价在2020年摸到311.046美元的高位后,便进入了下行的通道。业内人士分析,阿里云不仅发布了与全球顶尖模型比肩甚至更优的模型,而且具备完整的云生态,或能形成类似去年北美云计算服务商的投资逻辑。

DeepSeek以外,大厂大模型也值得关注

最近几天,大家的注意力都在DeepSeek上,但有国内头部大模型厂商的核心技术骨干告诉证券时报记者,包括阿里通义千问、字节豆包、腾讯混元在内的互联网大厂大模型能力其实并不差,只是DeepSeek作为创业公司,和互联网大厂在发展战略上有所不同。DeepSeek作为纯技术驱动的公司,代码和训练方法完全开源,而互联网大厂往往出于商业化等方面的考量不会完全开源。

“DeepSeek出圈的原因主要还是跟金融市场相关。从基座能力上看,其实没有那么强,对我们的冲击也没有那么大。”该技术骨干告诉记者,美国股市上涨的逻辑主要是AI和英伟达芯片,但DeepSeek让人们发现可能不需要这么多英伟达的卡,就能做出来性能差不多的模型。“而且还开源了,所以DeepSeek才这么受关注。”该技术骨干表示。

与此同时,DeepSeek主要是在文本生成能力和理解能力方面比较强,尤其擅长中文语境下的长文本和复杂语境,DeepSeek V3和R1暂无多模态生成能力。有行业从业者向记者表示,以豆包等为代表的大厂模型都属于多模态大模型,在大语言模型基础上融合了图片、音频、视频等多种模态,对算力底座要求更高,不仅要支持大规模训练任务,还要确保端侧应用的实时性和高效性。

因此,DeepSeek除了通过创新架构与优化算法降低训练成本外,还能更加聚焦于大语言模型领域。一名国内大模型高管在分析DeepSeek的成功时就指出,有相对充裕的卡(算力资源),没有融资压力,前面几年只做模型不做产品,这些都让DeepSeek更加纯粹和聚焦,能够在工程技术和算法上有所突破。

前述国内头部大模型厂商的核心技术骨干还透露,1月22日字节发布的豆包大模型1.5Pro,在多个测评基准上领先于许多头部的模型,“我们的压力不来自于DeepSeek,而是豆包,只是豆包1.5Pro没有出圈,大家没注意到。”该技术骨干说。

DeepSeek面临“蒸馏”争议

记者注意到,字节研究团队还表示,豆包1.5Pro通过高效标注团队与模型自提升相结合的方式持续优化数据质量,严格遵循内部标准,不使用任何其他模型的数据,确保数据来源的独立性和可靠性,也即没有通过“蒸馏”其他模型来走捷径。

所谓“蒸馏”,指的是一种开发者用来优化小型模型的方法,是一种在深度学习和机器学习领域广泛应用的技术,简单理解就是用预先训练好的复杂模型输出的结果,作为监督信号再去训练另外一个简单的模型。这样可以大幅减少计算资源消耗,让小模型在特定任务中以低成本取得类似效果。

DeepSeek的技术文档表示,R1模型使用了数据蒸馏技术(Distillation)生成的高质量数据提升了训练效率。周二,白宫人工智能和加密货币事务负责人大卫·萨克斯在接受该媒体采访时宣称,DeepSeek“有可能”窃取了美国的知识产权才得以崛起。他还表示,未来几个月美国领先的人工智能公司将采取措施,试图防止“蒸馏”。据金融时报报道,OpenAI称它发现DeepSeek使用了OpenAI专有模型来训练自己的开源模型的证据,但拒绝进一步透露其证据的细节。

不过多名业内人士表示,“蒸馏”虽然存在一定争议,但其实是大模型训练中一种常用的方法。由于训练复杂模型需要投入大量资源,并雇用专业人员教导模型如何生成符合人类表达方式的回答,耗钱耗时间,而“蒸馏”则可以避免这个问题。因此,无论是在中国还是美国,初创公司和学术机构使用ChatGPT等具有人类反馈优化的商业大语言模型输出数据来训练自己的模型,被视为一种普遍的、“默而不宣”的现象。

由中国科学院深圳先进技术研究院、北大等机构联合发表的论文《大语言模型的蒸馏量化》中,研究者就提到除了Claude、豆包和Gemini之外,当前知名的开闭源大语言模型均表现出了较高的“蒸馏”水平。研究人员普遍认为,“蒸馏”能够使模型训练的效率更好、成本更低,但会使模型的独特性下降,且过度“蒸馏”也会导致模型性能下降。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
常书铭、徐朝锋任山西省副省长

常书铭、徐朝锋任山西省副省长

新京报
2026-04-14 12:12:09
乌干达总司令向土耳其通牒:10亿美金加美女,不给就开战

乌干达总司令向土耳其通牒:10亿美金加美女,不给就开战

南风不及你温柔
2026-04-14 09:16:06
70架运输机出动,以色列迅速回血,巴铁大军进驻沙特,伊朗上当?

70架运输机出动,以色列迅速回血,巴铁大军进驻沙特,伊朗上当?

小樾说历史
2026-04-13 12:48:31
上海男篮冲击20连胜!卢伟拒绝爆冷,怀特塞德回归,央视直播

上海男篮冲击20连胜!卢伟拒绝爆冷,怀特塞德回归,央视直播

体坛瞎白话
2026-04-14 10:42:39
郑丽文返台,“三驾马车”亲自迎接、释放2大信号!1人现身不简单

郑丽文返台,“三驾马车”亲自迎接、释放2大信号!1人现身不简单

时尚的弄潮
2026-04-13 12:11:58
鲁迅后人现状,儿子是赫赫有名的大官,有一位是家喻户晓的大明星

鲁迅后人现状,儿子是赫赫有名的大官,有一位是家喻户晓的大明星

史之铭
2026-04-12 17:59:01
准时封锁!美总统没料到:中东贵客现身北京,中国出招了

准时封锁!美总统没料到:中东贵客现身北京,中国出招了

面包夹知识
2026-04-14 13:32:51
文强死了以后,他家里人日子过得怎么样?

文强死了以后,他家里人日子过得怎么样?

鉴史录
2026-04-13 15:27:52
永劫被指责穿衣不自由,官方让男解说穿洛丽塔,女解说涂成黑人

永劫被指责穿衣不自由,官方让男解说穿洛丽塔,女解说涂成黑人

新游戏大妹子
2026-04-13 11:36:36
49岁翁帆高调露面!换造型惊艳全场,一句话让英国定居传闻破灭

49岁翁帆高调露面!换造型惊艳全场,一句话让英国定居传闻破灭

一盅情怀
2026-03-16 16:58:07
二甲双胍抗衰老再获证据!新研究发现:中年开始用,减轻衰弱、保持肌肉骨骼健康,从源头延缓衰老

二甲双胍抗衰老再获证据!新研究发现:中年开始用,减轻衰弱、保持肌肉骨骼健康,从源头延缓衰老

医诺维
2026-04-12 12:35:26
交警提醒:新交规落地,高速143km/h不扣分,龟速行车直接扣3分!

交警提醒:新交规落地,高速143km/h不扣分,龟速行车直接扣3分!

复转这些年
2026-04-14 12:14:50
副总推搡、辱骂李添荣?首钢官宣回应,名记透露,男子身份曝光

副总推搡、辱骂李添荣?首钢官宣回应,名记透露,男子身份曝光

东球猫猫
2026-04-14 10:56:12
阿德巴约25+10希尔德31分 热火主场大胜老鹰

阿德巴约25+10希尔德31分 热火主场大胜老鹰

北青网-北京青年报
2026-04-13 21:16:07
果然,一降价就有人抢了

果然,一降价就有人抢了

中产先生
2026-04-14 12:06:45
霍尔木兹断航!第一个亚洲国家已断粮倒下,下一个受害者浮出水面

霍尔木兹断航!第一个亚洲国家已断粮倒下,下一个受害者浮出水面

小影的娱乐
2026-03-22 20:31:39
伊朗军方:地区港口安全“要么属于所有人,要么不属于任何人”

伊朗军方:地区港口安全“要么属于所有人,要么不属于任何人”

每日经济新闻
2026-04-13 15:54:12
山东省公安厅厅长夏凤俭已任山东省政府党组成员

山东省公安厅厅长夏凤俭已任山东省政府党组成员

澎湃新闻
2026-04-14 13:34:26
许家印认罪,都牵扯了谁?

许家印认罪,都牵扯了谁?

石头I侃房
2026-04-14 12:57:38
中国明确表态:中方船只将继续通过霍尔木兹,不接受任何拦截

中国明确表态:中方船只将继续通过霍尔木兹,不接受任何拦截

桂系007
2026-04-14 03:28:19
2026-04-14 14:32:50
中国基金报 incentive-icons
中国基金报
洞察金融市场,传播中国价值——《中国基金报》社官方账号(《中国基金报》社有限公司运营管理)
61364文章数 517420关注度
往期回顾 全部

科技要闻

离职同事"炼化"成AI?这届公司不需要活人了

头条要闻

恒大集团、恒大地产及许家印案开庭 许家印认罪悔罪

头条要闻

恒大集团、恒大地产及许家印案开庭 许家印认罪悔罪

体育要闻

他做对了所有事,却被整个职业网坛放逐了八年

娱乐要闻

宋祖儿刘宇宁恋情大反转 正主火速辟谣

财经要闻

许家印受审当庭表示认罪悔罪

汽车要闻

长城欧拉5限定版纯电版上市 限量99台售价13.38万元

态度原创

教育
时尚
艺术
本地
数码

教育要闻

审美与教育碰撞!五年级女孩着装引争议:心态崩了,母亲成了罪人

今年科切拉的风吹向了谁?

艺术要闻

这位美女画家的夏天竟如此梦幻

本地新闻

12吨巧克力有难,全网化身超级侦探添乱

数码要闻

FADU展望Gen7 SSD主控:未来不止1500万IOPS 还有更高目标

无障碍浏览 进入关怀版