网易首页 > 网易科技 > 网易科技 > 正文

一周AI大事:阿里Qwen 3小更新秀大肌肉 AI教父辛顿上海最新警告

0
分享至

本周焦点:AI模型攻克奥数金牌,Qwen3系列重磅更新,谷歌与GitHub工具发布潮

一、 重磅新闻:AI斩获IMO金牌,人类数学最后的堡垒被攻克

新闻:谷歌旗下人工智能实验室DeepMind宣布,其AI模型Gemini Deep Think在全球顶级数学竞赛——国际数学奥林匹克(IMO)中,以35分(满分42分)的成绩正式斩获金牌。此前不久,OpenAI也宣布其AI推理模型在同一赛事中获得了同样的金牌成绩。有趣的是,两家公司的模型解决了六道题目中完全相同的五道题。此外,字节跳动的Seed-Prover模型也获得了银牌,成功解出四题。


值得注意的是,OpenAI和谷歌的AI模型均为通用推理模型,其输入输出皆为自然语言,并未调用任何专用模型或外部工具。这意味着,这些模型中使用的技术具备应用到其他领域的巨大潜力。

锐评:奥数金牌都被AI拿了,以后鸡娃不如直接鸡代码。

二、 重磅工具:Qwen3系列更新——阿里的“小升级”与“大肌肉”

新闻:阿里巴巴的通义千问(Qwen)团队发布了全新的开源生成式AI模型,其在推理和编程方面的性能已超越部分顶尖的闭源AI模型。基于Qwen3 2350亿参数的混合专家(MoE)架构,团队针对特定任务推出了独立的指令调优版本(Qwen3-235B-A22B-Instruct-2507)和思维链版本(Qwen3-235B-A22B-Thinking-2507)。与此同时,团队还发布了全新的MoE架构编码智能体模型Qwen3-Coder-480B-A35B-Instruct,性能达到了业界顶尖水平(SOTA)。

升级后的Qwen3-235B-A22B-Instruct-2507支持256K token的上下文窗口,且没有“思考模式”带来的token开销。这款模型在非思考模式下的基准测试中,表现已超越Kimi-2、DeepSeek V3和Claude Opus 4等模型,例如在GPQA基准测试中的得分率达到77.5%,在BFCL函数调用基准上更是创下新的SOTA高分。这不仅证明Qwen3在非思考模式下的性能有巨大提升,也证明强大的AI能力并非必须依赖显性的“思考模式”。

Qwen3-235B-A22B-Thinking-2507在基础模型上增加了思考能力,其基准测试结果极其出色,在某些测试中甚至优于Gemini 2.5 Pro和GPT o4 mini。例如,这款模型在AIME25上的得分率达到92.3%,在LiveCodeBench上达到74%。Qwen3-235B-A22B-Thinking-2507不仅是一款SOTA级别的AI推理模型,更以仅220亿的活跃参数,成为开源AI模型中的顶尖之作。

通义千问团队还发布了Qwen3-Coder-480B-A35B——一款专为智能体式代码生成设计的MoE模型,总参数量4800亿,活跃参数量350亿。模型利用规模高达7.5万亿token的数据(其中70%为代码)训练而成,在SWE-bench基准测试中创下69.6%的新纪录。Qwen3-Coder通过YaRN扩展支持最高100万token的上下文,以明显更低成本实现与Claude 4 Sonnet相媲美的性能。


尽管阿里官方称之为一次“小幅”更新,但这些改进无疑使Qwen3成为目前最强的开源AI模型之一。阿里通义千问团队负责人林俊旸在ThursdAI播客中揭示了其核心打法,他们“在超过20000个并行沙盒的环境中进行强化学习”,通过持续的“代码-编写-测试-学习”循环,实现了规模化的能力进化。

Qwen3系列模型均为采用Apache 2.0许可的开源模型,用户可通过通义千问聊天工具和各大开源AI模型平台获取,也可从HuggingFace下载。

通义千问团队还发布了Qwen Code。这个从Gemini CLI复刻而来的命令行(CLI)工具和编程智能体便于用户调用阿里最新的编程模型,可通过GitHub获取。

锐评:阿里太过“凡尔赛”,这是在暗示别家的大版本还不如自家的小补丁?

三、 AI技术与产品发布——谷歌领衔“工具雨”

1. 谷歌推出Opal:这款出自谷歌实验室的AI驱动“氛围感编程”(vibe-coding)工具,允许用户通过简单的自然语言和可视化编辑,将提示词、模型和其他工具组合在一起,轻松创建并分享自己的迷你AI应用。

锐评:好的程序员不仅要懂代码,还得懂情调。

2. 谷歌正式发布Gemini 2.5 Flash-Lite:这是谷歌旗下最具性价比、速度最快的Gemini 2.5 AI模型,相比2.0 Flash速度更快、成本更低,同时在编程、数学和多模态理解方面表现更优。

锐评:主打一个“加量不加价”,谷歌模型也开始走薄利多销的亲民路线了。

3. 谷歌推出AI新功能Web Guide:作为Search Labs的实验性项目,Web Guide能利用Gemini对用户的复杂查询进行分类,并对相关网页进行分组,从而更好地组织搜索结果。

锐评:信息选择困难症的福音。

4. 谷歌推出AI虚拟试衣功能:该功能允许美国用户在购物平台上传自己照片来虚拟试穿衣服,在原有功能基础上升级了个性化体验。

锐评:提前预演网购翻车现场。

5. 谷歌更新NotebookLM技术:新增的“专家笔记”功能允许用户用自己的笔记和文档训练AI,从而实现更强大、更符合上下文情境的对话。

锐评:私人定制的AI“懂王”来了。

6. 英伟达更新Nemotron推理模型:这个名为OpenReasoning-Nemotron系列的小型AI推理模型包含15亿到320亿参数,基于Qwen2.5开发,并从DeepSeek R1 0528中蒸馏而来。

锐评:英伟达上演了一出AI版“站在巨人的肩膀上”。

7. 英伟达将Kimi-K2-Instruct加入Nvidia NIM微服务:此举更便于开发者在其应用中调用强大的K2 MoE模型。

锐评:让天下没有难调用的AI。

8. Boson AI开源文本转语音模型Higgs Audio v2:这款模型能实时生成富有表现力的语音,支持零样本多说话人对话、语音克隆以及“哼唱转歌声”。Higgs Audio v2整合了30亿参数的Llama 3.2核心模型和22亿参数的音频模型,具备深厚的语言和声学理解能力,可在单张A100 GPU上高效运行。

锐评:连哼唱都能转成歌,五音不全也能玩音乐。

9. GitHub Spark开放公测:这款通过单次提示即可创建Web应用的工具,已向Copilot订阅用户开放。有开发者甚至用Spark成功地对Spark本身进行了一番逆向工程,上演了一出现实版的“我分析我自己”。

锐评:一句话生成应用的时代来了。

10. Anthropic在移动端推出新交互方式:新功能允许用户直接通过手机创建交互式工具、浏览作品集并分享工作成果。

锐评:手机不止能刷剧,还能搞AI创作。

11. LlamaIndex发布全开源智能体:该智能体可自动化响应“需求建议书”(RFP),处理文档提取、分析和报告生成等繁琐工作。

锐评:未来连“写材料”的活儿都要被AI抢光了。

12. 腾讯正式发布并全面开源混元3D世界模型1.0:这是业界首个开源的可沉浸漫游、可交互、可仿真的世界生成模型。过去需要专业团队数周才能搭建的3D虚拟世界,现在只需一句文字或一张图片,几分钟内即可生成。

锐评:分分钟建出个元宇宙。

13. 阶跃星辰发布Step-3开源多模态推理模型:公司方面称,这款大模型效率高、成本低,对国产算力更加友好,推理效率最高可达DeepSeek R1的300%。

锐评:国产算力友好是亮点。

14. 荣耀发布自研多模态感知大模型MagicGUI:这款70亿参数的大模型,在荣耀Magic V5常用场景用机操控中的准确率达到91.5%,表现已比肩SOTA模型。

锐评:苹果Siri也要捏把汗。

四、 AI研究新动向——“想太久”会犯错,小模型能破局

1. Anthropic发现“反向缩放效应”:其最新研究论文《测试时计算的反向缩放效应》指出,在模型推理时,计算量并非越多越好。Anthropic在Opus 4的基准测试中观察到,延长推理时间反而会导致准确率下降,因为增加计算可能会“强化有问题的推理模式”。

锐评:模型“想太久”反而会“想岔路”,大力不一定能出奇迹,也可能出悲剧。

2. Sapient Intelligence发布分层推理模型(HRM):正如其论文《分层推理模型》(Hierarchical Reasoning Model)中所述,这是一种新颖的循环架构,能显著提升计算深度,同时保持训练稳定。一个仅有2700万参数的微型HRM,也能在解决复杂数独等特定任务中实现复杂推理。

锐评:证明了AI智能不在于“体格”大,而在于“脑回路”清奇。

3. 苹果提出多token预测新思路:其论文《你的大语言模型知道未来:多token预测潜力发掘》(Your LLM Knows the Future: Uncovering Its Multi-Token Prediction Potential)展示了相关新想法,这些改进有望在不损失质量的情况下,将大语言模型的推理速度提升多达5倍。

锐评:让大模型学会“预判你的预判”。

五、 AI商业与政策——规则与资本齐飞

1. 中国发布《人工智能全球治理行动计划》:7月26日,该行动计划在2025世界人工智能大会上正式发表,包括13条主要内容,呼吁各方协力推进全球人工智能的健康发展与治理。


锐评:为人类服务的AI才是好AI。

2. 白宫发布《美国AI行动计划》:该计划提出90项建议,旨在通过加速AI进步与部署、确保美国的领导地位来“赢得AI竞赛”。计划将AI视为经济机遇和国家安全要务,包含90项建议:放松AI监管,简化数据中心及相关基础设施建设审批流程,建立AI测试设施,资助AI研究与人才培训,支持开源模型,在联邦政府全面推广AI应用,通过国防部等机构提供拨款和投资以刺激AI发展。硅谷普遍对这一计划表示欢迎,主要因为其在AI领域优先考虑发展而非约束,且制定过程采纳了硅谷的意见。

锐评:生怕在AI这场牌局里起得晚了,连牌都摸不着。

3. OpenAI与Oracle扩大数据中心合作:双方同意在美国将其“星门计划”(Stargate)数据中心的容量再扩充4.5吉瓦,总容量将超过5吉瓦。这一合作是对运行先进AI模型所需数据中心的重大投资。扩建预计将创造超过10万个建筑和运营岗位,位于得州阿比林的“星门计划”一期项目已经投入运营。

锐评:这是要用整座发电厂给AI当充电宝。

4. OpenAI设立5000万美元AI基金:该基金将用于支持非营利组织和社区组织利用AI应对教育、医疗等领域的关键挑战。

锐评:这点钱对OpenAI来说,格局略显小了。

5. Reka宣布获得1.1亿美元融资:投资方包括英伟达和Snowflake等知名企业。

锐评:融资不上亿都不好意思上新闻了。

6. 谷歌CEO桑德尔·皮查伊(Sundar Pichai )确认向OpenAI提供云资源:尽管OpenAI是谷歌搜索的最大竞争对手,但这笔交易为谷歌云服务带来了一位大客户,也使其来自AI公司的营收显著增长。

锐评:只要钱给够,情敌也能变战友。

7. Meta与AWS联合启动初创公司扶持计划:该计划旨在支持使用Llama模型构建AI应用的有潜力的早期初创公司。

锐评:“富爸爸”们开始为自家的AI生态圈招兵买马了。

8. Meta任命赵晟佳为超级智能实验室(MSL)首席科学家:赵晟佳曾是OpenAI研究员,为ChatGPT和GPT-4做出过关键贡献。


锐评:顶尖人才的流动,定义着AI行业的格局。

9. 特斯拉人形机器人产量远低目标:特斯拉计划2025年生产5000台“擎天柱”(Optimus)机器人,但目前仅生产了数百台。尽管如此,埃隆·马斯克现计划明年初开始生产Optimus 3,并在五年内实现“年产百万台”的宏伟目标。

锐评:老马的大饼年年画,今年特别多。

六、 AI观点:驯服还是消灭?AI安全的终极拷问

1. AI教父杰弗里·辛顿(Geoffrey Hinton)谈“AI威胁论”:辛顿在世界人工智能大会(WAIC)上发表主题演讲,并抛出了他认为最关键的问题:人类如何不被自己创造的智能体消灭。他强调,大模型一旦具备比人类更强的智能,仅靠“关掉它”并不能解决问题。他用了一个生动的比喻:“养老虎的唯一办法是,要么你把它训练得永远不攻击你,要么你把它干掉。” 他呼吁建立一个国际性的AI安全组织。

锐评:这只“老虎”现在还萌,但谁也保不准哪天它不想再吃猫粮了。

2. 萨姆·奥特曼(Sam Altman)警告AI心理治疗风险:奥特曼强调,用户与ChatGPT等AI进行的敏感对话并不享有法律上的保密特权,公司可能被强制要求披露相关内容。他还表达了对年轻人过度依赖AI的担忧,强调AI应辅助而非替代独立思考。

锐评:AI有风险,倾诉需谨慎。(辰辰)

延伸阅读
相关推荐
热点推荐
莫雷加德抗议张本智和大吼,自己吃了黄牌,结果小莫的做法太解气

莫雷加德抗议张本智和大吼,自己吃了黄牌,结果小莫的做法太解气

观察鉴娱
2025-12-15 09:04:17
玛莎拉蒂直降54万!上海门店两天售罄,开店九年头一次

玛莎拉蒂直降54万!上海门店两天售罄,开店九年头一次

齐鲁壹点
2025-12-15 22:29:12
太突然!顶流门店停业 曾是无锡这一片排队王

太突然!顶流门店停业 曾是无锡这一片排队王

无锡新部落
2025-12-15 22:02:22
征信,已被彻底玩坏了

征信,已被彻底玩坏了

难得君
2025-06-27 12:56:14
曾和靳东爱的死去活来,却被父亲“棒打鸳鸯”,转身嫁给父亲看准的女婿,44岁的她后悔了吗?

曾和靳东爱的死去活来,却被父亲“棒打鸳鸯”,转身嫁给父亲看准的女婿,44岁的她后悔了吗?

不二大叔
2025-10-26 21:23:34
辽宁抽查,不合格企业名单公布!

辽宁抽查,不合格企业名单公布!

沈阳公交网小林
2025-12-16 00:12:37
恭喜!马筱梅曝预产期,称2月回台湾生产,肚大如箩仍直播不娇气

恭喜!马筱梅曝预产期,称2月回台湾生产,肚大如箩仍直播不娇气

娱乐圈圈圆
2025-12-14 22:13:24
李泽楷被她迷,林丹为她不顾妻儿,她究竟有什么魅力?

李泽楷被她迷,林丹为她不顾妻儿,她究竟有什么魅力?

趣文说娱
2025-12-12 18:03:47
在西班牙慢生活住了6个月 我只看见穷和累

在西班牙慢生活住了6个月 我只看见穷和累

纪元新观察
2025-12-15 06:38:43
埃梅里:大马丁受伤了,希望他能在对阵曼联前回归训练

埃梅里:大马丁受伤了,希望他能在对阵曼联前回归训练

懂球帝
2025-12-16 01:44:09
北约损失惨重!

北约损失惨重!

安安说
2025-12-15 09:41:45
德转中前卫身价世界前10:佩德里1.4亿第1,赖斯、巴尔韦德第2

德转中前卫身价世界前10:佩德里1.4亿第1,赖斯、巴尔韦德第2

懂球帝
2025-12-15 23:24:27
警惕!小心这些药正在“溶解”你的肌肉

警惕!小心这些药正在“溶解”你的肌肉

PSM药盾公益
2025-11-21 16:59:45
相比于最快护士的不务正业,白岩松的评论,更加傲慢的可怕

相比于最快护士的不务正业,白岩松的评论,更加傲慢的可怕

寒士之言本尊
2025-12-15 13:27:53
中国男乒的现状和王励勤不容回避的问题有哪些?

中国男乒的现状和王励勤不容回避的问题有哪些?

大眼瞄世界
2025-12-15 23:47:05
吉林市一商场2座楼被拍卖!起拍价为1亿.....

吉林市一商场2座楼被拍卖!起拍价为1亿.....

橹讯
2025-12-15 18:00:18
韩媒再曝猛料!被警方带走的鸟叔再迎3大噩耗,公司经纪人全遭殃

韩媒再曝猛料!被警方带走的鸟叔再迎3大噩耗,公司经纪人全遭殃

梦史
2025-12-13 09:43:45
奥运冠军葛菲:和世界冠军丈夫恩爱23年,如今儿子也是全运会冠军

奥运冠军葛菲:和世界冠军丈夫恩爱23年,如今儿子也是全运会冠军

法老不说教
2025-12-15 13:49:21
即将截止,不可补缴!

即将截止,不可补缴!

新浪财经
2025-12-15 15:58:38
日本为什么挑衅中国,西班牙专家:中国错就错在没跟日本彻底清算

日本为什么挑衅中国,西班牙专家:中国错就错在没跟日本彻底清算

我心纵横天地间
2025-12-08 18:32:33
2025-12-16 04:44:49

科技要闻

大佬冷酷预言:未来15年 人形机器人成废铁

头条要闻

交警确认小米交付中心发生车祸 小米内部人士回应

头条要闻

交警确认小米交付中心发生车祸 小米内部人士回应

体育要闻

战胜完全体雷霆,马刺“疯狂动物城”只是半成品

娱乐要闻

何晴告别式现场,前夫许亚军双眼泛红?

财经要闻

新农合涨到400元 农民断缴背后的扎心真相

汽车要闻

主驾配按摩还可选6座 新款捷途X90PRO售13.59万起

态度原创

手机
旅游
本地
时尚
军事航空

手机要闻

一图读懂vivo S50:田曦薇代言 2999元起

旅游要闻

跨年夜京城将上演钟鼓齐鸣

本地新闻

云游安徽|阜阳三朝风骨,传承千年墨香

外套+半身裙封神穿搭!6款显瘦神器保暖不臃肿,冬天美得出彩

军事要闻

泽连斯基称乌方已妥协不加入北约 俄方发声

无障碍浏览 进入关怀版