网易首页 > 网易号 > 正文 申请入驻

美国对DeepSeek开展国家安全调查!阿里突放大招,国产大模型又有重磅!

0
分享至

大年初一,阿里发出大模型新年第一弹。

1月29日凌晨1点半,阿里云通义千问旗舰版模型Qwen2.5-Max正式升级发布。据其介绍,Qwen2.5-Max模型是阿里云通义团队对MoE模型的最新探索成果,预训练数据超过20万亿tokens,展现出极强劲的综合性能,在多项公开主流模型评测基准上录得高分,全面超越了目前全球领先的开源MoE模型以及最大的开源稠密模型。

与Qwen2.5-Max进行对比的模型,就包括了最近火爆海内外的DeepSeek旗下的V3模型。受新模型的影响,阿里巴巴美股拉升,一度涨超7%,收盘录得6.71%的涨幅,报96.03美元/股。

最近几天,DeepSeek冲击了美股的投资逻辑,导致英伟达等巨头股价大幅震荡。

据央视新闻消息,当地时间1月28日,美国多名官员回应DeepSeek对美国的影响,表示DeepSeek是“偷窃”,正对其影响开展国家安全调查。

就在前一天,美国总统特朗普还称DeepSeek是很积极的技术成果。

无论是在硅谷、华尔街及白宫掀起轩然大波的DeepSeek,还是阿里通义千问新发布的大模型,国产大模型最近的密集创新成果表明,中国人工智能的进步与追赶,已经极大程度改变了全球AI的行业格局。

阿里新模型性能全球领先

阿里通义千问团队表示,Qwen2.5-Max采用超大规模MoE(混合专家)架构,基于超过20万亿token的预训练数据及精心设计的后训练方案进行训练。

据介绍,Qwen2.5-Max在知识、编程、全面评估综合能力的以及人类偏好对齐等主流权威基准测试上,展现出全球领先的模型性能。指令模型是所有人可直接对话体验到的模型版本,在Arena-Hard、LiveBench、LiveCodeBench、GPQA-Diamond及MMLU-Pro等基准测试中,Qwen2.5-Max比肩Claude-3.5-Sonnet,并几乎全面超越了GPT-4o、DeepSeek-V3及Llama-3.1-405B。

同时,基座模型反映模型裸性能,由于无法访问GPT-4o和Claude-3.5-Sonnet等闭源模型的基座模型,通义团队将Qwen2.5-Max与目前领先的开源MoE模型DeepSeek V3、最大的开源稠密模型Llama-3.1-405B,以及同样位列开源稠密模型前列的Qwen2.5-72B进行了对比。结果显示,在所有11项基准测试中,Qwen2.5-Max全部超越了对比模型。

记者还注意到,除了发布Qwen2.5-Max以外,1月28日,阿里还开源了全新的视觉理解模型Qwen2.5-VL,推出了3B、7B、72B三个尺寸版本。其中,旗舰版Qwen2.5-VL-72B在13项权威评测中夺得视觉理解冠军,全面超越GPT-4o与Claude3.5。

阿里巴巴股价走势

受新模型的影响,阿里巴巴美股拉升,一度涨超7%,收盘录得6.71%的涨幅,报96.03美元/股。Qwen2.5-Max的发布引发了资本市场关于重估中国AI资产的讨论。如果将阿里巴巴美股上市后的股价走势时间轴拉长,其股价在2020年摸到311.046美元的高位后,便进入了下行的通道。业内人士分析,阿里云不仅发布了与全球顶尖模型比肩甚至更优的模型,而且具备完整的云生态,或能形成类似去年北美云计算服务商的投资逻辑。

DeepSeek以外,大厂大模型也值得关注

最近几天,大家的注意力都在DeepSeek上,但有国内头部大模型厂商的核心技术骨干告诉证券时报记者,包括阿里通义千问、字节豆包、腾讯混元在内的互联网大厂大模型能力其实并不差,只是DeepSeek作为创业公司,和互联网大厂在发展战略上有所不同。DeepSeek作为纯技术驱动的公司,代码和训练方法完全开源,而互联网大厂往往出于商业化等方面的考量不会完全开源。

“DeepSeek出圈的原因主要还是跟金融市场相关。从基座能力上看,其实没有那么强,对我们的冲击也没有那么大。”该技术骨干告诉记者,美国股市上涨的逻辑主要是AI和英伟达芯片,但DeepSeek让人们发现可能不需要这么多英伟达的卡,就能做出来性能差不多的模型。“而且还开源了,所以DeepSeek才这么受关注。”该技术骨干表示。

与此同时,DeepSeek主要是在文本生成能力和理解能力方面比较强,尤其擅长中文语境下的长文本和复杂语境,DeepSeek V3和R1暂无多模态生成能力。有行业从业者向记者表示,以豆包等为代表的大厂模型都属于多模态大模型,在大语言模型基础上融合了图片、音频、视频等多种模态,对算力底座要求更高,不仅要支持大规模训练任务,还要确保端侧应用的实时性和高效性。

因此,DeepSeek除了通过创新架构与优化算法降低训练成本外,还能更加聚焦于大语言模型领域。一名国内大模型高管在分析DeepSeek的成功时就指出,有相对充裕的卡(算力资源),没有融资压力,前面几年只做模型不做产品,这些都让DeepSeek更加纯粹和聚焦,能够在工程技术和算法上有所突破。

前述国内头部大模型厂商的核心技术骨干还透露,1月22日字节发布的豆包大模型1.5Pro,在多个测评基准上领先于许多头部的模型,“我们的压力不来自于DeepSeek,而是豆包,只是豆包1.5Pro没有出圈,大家没注意到。”该技术骨干说。

DeepSeek面临“蒸馏”争议

记者注意到,字节研究团队还表示,豆包1.5Pro通过高效标注团队与模型自提升相结合的方式持续优化数据质量,严格遵循内部标准,不使用任何其他模型的数据,确保数据来源的独立性和可靠性,也即没有通过“蒸馏”其他模型来走捷径。

所谓“蒸馏”,指的是一种开发者用来优化小型模型的方法,是一种在深度学习和机器学习领域广泛应用的技术,简单理解就是用预先训练好的复杂模型输出的结果,作为监督信号再去训练另外一个简单的模型。这样可以大幅减少计算资源消耗,让小模型在特定任务中以低成本取得类似效果。

DeepSeek的技术文档表示,R1模型使用了数据蒸馏技术(Distillation)生成的高质量数据提升了训练效率。周二,白宫人工智能和加密货币事务负责人大卫·萨克斯在接受该媒体采访时宣称,DeepSeek“有可能”窃取了美国的知识产权才得以崛起。他还表示,未来几个月美国领先的人工智能公司将采取措施,试图防止“蒸馏”。据金融时报报道,OpenAI称它发现DeepSeek使用了OpenAI专有模型来训练自己的开源模型的证据,但拒绝进一步透露其证据的细节。

不过多名业内人士表示,“蒸馏”虽然存在一定争议,但其实是大模型训练中一种常用的方法。由于训练复杂模型需要投入大量资源,并雇用专业人员教导模型如何生成符合人类表达方式的回答,耗钱耗时间,而“蒸馏”则可以避免这个问题。因此,无论是在中国还是美国,初创公司和学术机构使用ChatGPT等具有人类反馈优化的商业大语言模型输出数据来训练自己的模型,被视为一种普遍的、“默而不宣”的现象。

由中国科学院深圳先进技术研究院、北大等机构联合发表的论文《大语言模型的蒸馏量化》中,研究者就提到除了Claude、豆包和Gemini之外,当前知名的开闭源大语言模型均表现出了较高的“蒸馏”水平。研究人员普遍认为,“蒸馏”能够使模型训练的效率更好、成本更低,但会使模型的独特性下降,且过度“蒸馏”也会导致模型性能下降。

责编:叶舒筠

校对:王朝全

版权声明

" Type="normal"@@-->

证券时报各平台所有原创内容,未经书面授权,任何单位及个人不得转载。我社保留追究相关行为主体法律责任的权利。

转载与合作可联系证券时报小助理,微信ID:SecuritiesTimes" Type="normal"@@-->

END

" Type="normal"@@-->

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
滴滴把“判责后台”搬到台前,网约车真的要打价值战了!

滴滴把“判责后台”搬到台前,网约车真的要打价值战了!

牲产队
2026-06-02 16:54:44
新能源车市回暖 特斯拉销量接近8.6万

新能源车市回暖 特斯拉销量接近8.6万

财闻
2026-06-02 19:21:11
九号上架两款72V铅酸,定价950元起

九号上架两款72V铅酸,定价950元起

碳基打工人
2026-06-02 16:50:18
扎心的现象:很多中国男人已经养不起家了,无数普通顶梁柱被压垮

扎心的现象:很多中国男人已经养不起家了,无数普通顶梁柱被压垮

捣蛋窝
2026-04-28 11:29:00
杉杉股份经营陷困境回购后又减持赚40%差价 大股东和高管大比例质押和减持

杉杉股份经营陷困境回购后又减持赚40%差价 大股东和高管大比例质押和减持

新浪财经
2026-06-03 18:09:10
尾灯开裂,小米SU7车主陷入维权僵局

尾灯开裂,小米SU7车主陷入维权僵局

ZAKER新闻
2026-06-01 14:46:40
不给弟弟吃你等着!全网最不吃压力姐姐,淡定反击母亲,太解气了

不给弟弟吃你等着!全网最不吃压力姐姐,淡定反击母亲,太解气了

林林先生
2026-06-02 09:30:07
132亿砸出深圳最大高铁站!4年后竣工,北站“老大”地位不保?

132亿砸出深圳最大高铁站!4年后竣工,北站“老大”地位不保?

科学发掘
2026-06-02 16:28:25
魏宗万女儿透露父亲去世细节:常年疾病积累,走时最放心不下老伴

魏宗万女儿透露父亲去世细节:常年疾病积累,走时最放心不下老伴

乡野小珥
2026-06-03 12:00:31
你划你的海域分界线,中国不承认,就是废纸一张!

你划你的海域分界线,中国不承认,就是废纸一张!

阿龙聊军事
2026-05-31 11:05:49
我定居日本20年,娶过3个妻子,发现日本的女人都有一个共同特点

我定居日本20年,娶过3个妻子,发现日本的女人都有一个共同特点

千秋文化
2026-05-20 20:33:05
中国运-15再曝试飞图!灰色涂装加新发动机,这次真快了

中国运-15再曝试飞图!灰色涂装加新发动机,这次真快了

瞩望云霄
2026-06-03 18:35:24
​中美俄石油储量比较:俄800亿桶,美国超700亿桶,中国有多少?

​中美俄石油储量比较:俄800亿桶,美国超700亿桶,中国有多少?

锅锅爱历史
2026-06-03 04:58:42
他达拉非立大功!研究发现:中老年吃他达拉非,改善5类难言之隐

他达拉非立大功!研究发现:中老年吃他达拉非,改善5类难言之隐

医学科普汇
2026-06-03 17:10:16
白酒最怕的解药,不是茶水,而是常见的它,三分钟快速解酒!

白酒最怕的解药,不是茶水,而是常见的它,三分钟快速解酒!

展望云霄
2026-05-18 22:30:18
中国海警巡航台岛时,两岸军机激烈对峙!大陆对“台独”称呼变了

中国海警巡航台岛时,两岸军机激烈对峙!大陆对“台独”称呼变了

小小科普员
2026-06-03 13:34:15
奚梦瑶法国大婚刷屏,赵丽颖提前离场!如果豪门有HR,谁会被留任

奚梦瑶法国大婚刷屏,赵丽颖提前离场!如果豪门有HR,谁会被留任

阿废冷眼观察所
2026-06-03 08:21:44
中方驱逐美记者后,美吊销新华社记者许可

中方驱逐美记者后,美吊销新华社记者许可

风雨与阳光
2026-06-03 13:17:23
毛主席接见忽必烈后裔,对方临别赠一言,毛主席:我一定记在心里

毛主席接见忽必烈后裔,对方临别赠一言,毛主席:我一定记在心里

芊芊子吟
2026-06-03 07:15:06
上海为何把最贵的空间,留给了普通人?

上海为何把最贵的空间,留给了普通人?

城市研究室
2026-06-02 15:37:16
2026-06-03 19:16:49
证券时报 incentive-icons
证券时报
运营主体:深圳证券时报社有限公司
921411文章数 239163关注度
往期回顾 全部

科技要闻

传DeepSeek融资意向500亿:腾讯投100亿

头条要闻

网友花120万在直播间买原石 警方:30人拼单29个是托

头条要闻

网友花120万在直播间买原石 警方:30人拼单29个是托

体育要闻

选择中国品牌的库里,和他们的巨大野心

娱乐要闻

官方痛批乱象 刘涛郑恺等艺人遭点名

财经要闻

AI,开始偷懒了?

汽车要闻

专访蒋平:安全不做高低配 长安要让安全技术普惠

态度原创

房产
健康
本地
家居
军事航空

房产要闻

突发!254亩调规,海口江东的超级学校真的快来了!

违规干细胞抗衰美容,为何肆无忌惮

本地新闻

用杨柳青年画的方式,打开天津

家居要闻

江畔轻奢 观云大宅

军事要闻

美伊互袭波及多国 过去一夜中东局势骤然升级

无障碍浏览 进入关怀版