一周AI大事：阿里Qwen 3小更新秀大肌肉 AI教父辛顿上海最新警告|人工智能|谷歌|智能体|编程|调用|qwen

分享至

本周焦点：AI模型攻克奥数金牌，Qwen3系列重磅更新，谷歌与GitHub工具发布潮

一、重磅新闻：AI斩获IMO金牌，人类数学最后的堡垒被攻克

新闻：谷歌旗下人工智能实验室DeepMind宣布，其AI模型Gemini Deep Think在全球顶级数学竞赛——国际数学奥林匹克（IMO）中，以35分（满分42分）的成绩正式斩获金牌。此前不久，OpenAI也宣布其AI推理模型在同一赛事中获得了同样的金牌成绩。有趣的是，两家公司的模型解决了六道题目中完全相同的五道题。此外，字节跳动的Seed-Prover模型也获得了银牌，成功解出四题。

值得注意的是，OpenAI和谷歌的AI模型均为通用推理模型，其输入输出皆为自然语言，并未调用任何专用模型或外部工具。这意味着，这些模型中使用的技术具备应用到其他领域的巨大潜力。

锐评：奥数金牌都被AI拿了，以后鸡娃不如直接鸡代码。

二、重磅工具：Qwen3系列更新——阿里的“小升级”与“大肌肉”

新闻：阿里巴巴的通义千问（Qwen）团队发布了全新的开源生成式AI模型，其在推理和编程方面的性能已超越部分顶尖的闭源AI模型。基于Qwen3 2350亿参数的混合专家（MoE）架构，团队针对特定任务推出了独立的指令调优版本（Qwen3-235B-A22B-Instruct-2507）和思维链版本（Qwen3-235B-A22B-Thinking-2507）。与此同时，团队还发布了全新的MoE架构编码智能体模型Qwen3-Coder-480B-A35B-Instruct，性能达到了业界顶尖水平（SOTA）。

升级后的Qwen3-235B-A22B-Instruct-2507支持256K token的上下文窗口，且没有“思考模式”带来的token开销。这款模型在非思考模式下的基准测试中，表现已超越Kimi-2、DeepSeek V3和Claude Opus 4等模型，例如在GPQA基准测试中的得分率达到77.5%，在BFCL函数调用基准上更是创下新的SOTA高分。这不仅证明Qwen3在非思考模式下的性能有巨大提升，也证明强大的AI能力并非必须依赖显性的“思考模式”。

Qwen3-235B-A22B-Thinking-2507在基础模型上增加了思考能力，其基准测试结果极其出色，在某些测试中甚至优于Gemini 2.5 Pro和GPT o4 mini。例如，这款模型在AIME25上的得分率达到92.3%，在LiveCodeBench上达到74%。Qwen3-235B-A22B-Thinking-2507不仅是一款SOTA级别的AI推理模型，更以仅220亿的活跃参数，成为开源AI模型中的顶尖之作。

通义千问团队还发布了Qwen3-Coder-480B-A35B——一款专为智能体式代码生成设计的MoE模型，总参数量4800亿，活跃参数量350亿。模型利用规模高达7.5万亿token的数据（其中70%为代码）训练而成，在SWE-bench基准测试中创下69.6%的新纪录。Qwen3-Coder通过YaRN扩展支持最高100万token的上下文，以明显更低成本实现与Claude 4 Sonnet相媲美的性能。

尽管阿里官方称之为一次“小幅”更新，但这些改进无疑使Qwen3成为目前最强的开源AI模型之一。阿里通义千问团队负责人林俊旸在ThursdAI播客中揭示了其核心打法，他们“在超过20000个并行沙盒的环境中进行强化学习”，通过持续的“代码-编写-测试-学习”循环，实现了规模化的能力进化。

Qwen3系列模型均为采用Apache 2.0许可的开源模型，用户可通过通义千问聊天工具和各大开源AI模型平台获取，也可从HuggingFace下载。

通义千问团队还发布了Qwen Code。这个从Gemini CLI复刻而来的命令行（CLI）工具和编程智能体便于用户调用阿里最新的编程模型，可通过GitHub获取。

锐评：阿里太过“凡尔赛”，这是在暗示别家的大版本还不如自家的小补丁？

三、 AI技术与产品发布——谷歌领衔“工具雨”

1. 谷歌推出Opal：这款出自谷歌实验室的AI驱动“氛围感编程”（vibe-coding）工具，允许用户通过简单的自然语言和可视化编辑，将提示词、模型和其他工具组合在一起，轻松创建并分享自己的迷你AI应用。

锐评：好的程序员不仅要懂代码，还得懂情调。

2. 谷歌正式发布Gemini 2.5 Flash-Lite：这是谷歌旗下最具性价比、速度最快的Gemini 2.5 AI模型，相比2.0 Flash速度更快、成本更低，同时在编程、数学和多模态理解方面表现更优。

锐评：主打一个“加量不加价”，谷歌模型也开始走薄利多销的亲民路线了。

3. 谷歌推出AI新功能Web Guide：作为Search Labs的实验性项目，Web Guide能利用Gemini对用户的复杂查询进行分类，并对相关网页进行分组，从而更好地组织搜索结果。

锐评：信息选择困难症的福音。

4. 谷歌推出AI虚拟试衣功能：该功能允许美国用户在购物平台上传自己照片来虚拟试穿衣服，在原有功能基础上升级了个性化体验。

锐评：提前预演网购翻车现场。

5. 谷歌更新NotebookLM技术：新增的“专家笔记”功能允许用户用自己的笔记和文档训练AI，从而实现更强大、更符合上下文情境的对话。

锐评：私人定制的AI“懂王”来了。

6. 英伟达更新Nemotron推理模型：这个名为OpenReasoning-Nemotron系列的小型AI推理模型包含15亿到320亿参数，基于Qwen2.5开发，并从DeepSeek R1 0528中蒸馏而来。

锐评：英伟达上演了一出AI版“站在巨人的肩膀上”。

7. 英伟达将Kimi-K2-Instruct加入Nvidia NIM微服务：此举更便于开发者在其应用中调用强大的K2 MoE模型。

锐评：让天下没有难调用的AI。

8. Boson AI开源文本转语音模型Higgs Audio v2：这款模型能实时生成富有表现力的语音，支持零样本多说话人对话、语音克隆以及“哼唱转歌声”。Higgs Audio v2整合了30亿参数的Llama 3.2核心模型和22亿参数的音频模型，具备深厚的语言和声学理解能力，可在单张A100 GPU上高效运行。

锐评：连哼唱都能转成歌，五音不全也能玩音乐。

9. GitHub Spark开放公测：这款通过单次提示即可创建Web应用的工具，已向Copilot订阅用户开放。有开发者甚至用Spark成功地对Spark本身进行了一番逆向工程，上演了一出现实版的“我分析我自己”。

锐评：一句话生成应用的时代来了。

10. Anthropic在移动端推出新交互方式：新功能允许用户直接通过手机创建交互式工具、浏览作品集并分享工作成果。

锐评：手机不止能刷剧，还能搞AI创作。

11. LlamaIndex发布全开源智能体：该智能体可自动化响应“需求建议书”（RFP），处理文档提取、分析和报告生成等繁琐工作。

锐评：未来连“写材料”的活儿都要被AI抢光了。

12. 腾讯正式发布并全面开源混元3D世界模型1.0：这是业界首个开源的可沉浸漫游、可交互、可仿真的世界生成模型。过去需要专业团队数周才能搭建的3D虚拟世界，现在只需一句文字或一张图片，几分钟内即可生成。

锐评：分分钟建出个元宇宙。

13. 阶跃星辰发布Step-3开源多模态推理模型：公司方面称，这款大模型效率高、成本低，对国产算力更加友好，推理效率最高可达DeepSeek R1的300%。

锐评：国产算力友好是亮点。

14. 荣耀发布自研多模态感知大模型MagicGUI：这款70亿参数的大模型，在荣耀Magic V5常用场景用机操控中的准确率达到91.5%，表现已比肩SOTA模型。

锐评：苹果Siri也要捏把汗。

四、 AI研究新动向——“想太久”会犯错，小模型能破局

1. Anthropic发现“反向缩放效应”：其最新研究论文《测试时计算的反向缩放效应》指出，在模型推理时，计算量并非越多越好。Anthropic在Opus 4的基准测试中观察到，延长推理时间反而会导致准确率下降，因为增加计算可能会“强化有问题的推理模式”。

锐评：模型“想太久”反而会“想岔路”，大力不一定能出奇迹，也可能出悲剧。

2. Sapient Intelligence发布分层推理模型（HRM）：正如其论文《分层推理模型》（Hierarchical Reasoning Model）中所述，这是一种新颖的循环架构，能显著提升计算深度，同时保持训练稳定。一个仅有2700万参数的微型HRM，也能在解决复杂数独等特定任务中实现复杂推理。

锐评：证明了AI智能不在于“体格”大，而在于“脑回路”清奇。

3. 苹果提出多token预测新思路：其论文《你的大语言模型知道未来：多token预测潜力发掘》（Your LLM Knows the Future: Uncovering Its Multi-Token Prediction Potential）展示了相关新想法，这些改进有望在不损失质量的情况下，将大语言模型的推理速度提升多达5倍。

锐评：让大模型学会“预判你的预判”。

五、 AI商业与政策——规则与资本齐飞

1. 中国发布《人工智能全球治理行动计划》：7月26日，该行动计划在2025世界人工智能大会上正式发表，包括13条主要内容，呼吁各方协力推进全球人工智能的健康发展与治理。

锐评：为人类服务的AI才是好AI。

2. 白宫发布《美国AI行动计划》：该计划提出90项建议，旨在通过加速AI进步与部署、确保美国的领导地位来“赢得AI竞赛”。计划将AI视为经济机遇和国家安全要务，包含90项建议：放松AI监管，简化数据中心及相关基础设施建设审批流程，建立AI测试设施，资助AI研究与人才培训，支持开源模型，在联邦政府全面推广AI应用，通过国防部等机构提供拨款和投资以刺激AI发展。硅谷普遍对这一计划表示欢迎，主要因为其在AI领域优先考虑发展而非约束，且制定过程采纳了硅谷的意见。

锐评：生怕在AI这场牌局里起得晚了，连牌都摸不着。

3. OpenAI与Oracle扩大数据中心合作：双方同意在美国将其“星门计划”（Stargate）数据中心的容量再扩充4.5吉瓦，总容量将超过5吉瓦。这一合作是对运行先进AI模型所需数据中心的重大投资。扩建预计将创造超过10万个建筑和运营岗位，位于得州阿比林的“星门计划”一期项目已经投入运营。

锐评：这是要用整座发电厂给AI当充电宝。

4. OpenAI设立5000万美元AI基金：该基金将用于支持非营利组织和社区组织利用AI应对教育、医疗等领域的关键挑战。

锐评：这点钱对OpenAI来说，格局略显小了。

5. Reka宣布获得1.1亿美元融资：投资方包括英伟达和Snowflake等知名企业。

锐评：融资不上亿都不好意思上新闻了。

6. 谷歌CEO桑德尔·皮查伊（Sundar Pichai ）确认向OpenAI提供云资源：尽管OpenAI是谷歌搜索的最大竞争对手，但这笔交易为谷歌云服务带来了一位大客户，也使其来自AI公司的营收显著增长。

锐评：只要钱给够，情敌也能变战友。

7. Meta与AWS联合启动初创公司扶持计划：该计划旨在支持使用Llama模型构建AI应用的有潜力的早期初创公司。

锐评：“富爸爸”们开始为自家的AI生态圈招兵买马了。

8. Meta任命赵晟佳为超级智能实验室（MSL）首席科学家：赵晟佳曾是OpenAI研究员，为ChatGPT和GPT-4做出过关键贡献。

锐评：顶尖人才的流动，定义着AI行业的格局。

9. 特斯拉人形机器人产量远低目标：特斯拉计划2025年生产5000台“擎天柱”（Optimus）机器人，但目前仅生产了数百台。尽管如此，埃隆·马斯克现计划明年初开始生产Optimus 3，并在五年内实现“年产百万台”的宏伟目标。

锐评：老马的大饼年年画，今年特别多。

六、 AI观点：驯服还是消灭？AI安全的终极拷问

1. AI教父杰弗里·辛顿（Geoffrey Hinton）谈“AI威胁论”：辛顿在世界人工智能大会（WAIC）上发表主题演讲，并抛出了他认为最关键的问题：人类如何不被自己创造的智能体消灭。他强调，大模型一旦具备比人类更强的智能，仅靠“关掉它”并不能解决问题。他用了一个生动的比喻：“养老虎的唯一办法是，要么你把它训练得永远不攻击你，要么你把它干掉。” 他呼吁建立一个国际性的AI安全组织。

AI教父辛顿现身WAIC，称要训练AI不去消灭人类（来源：财经网科技）

锐评：这只“老虎”现在还萌，但谁也保不准哪天它不想再吃猫粮了。

2. 萨姆·奥特曼（Sam Altman）警告AI心理治疗风险：奥特曼强调，用户与ChatGPT等AI进行的敏感对话并不享有法律上的保密特权，公司可能被强制要求披露相关内容。他还表达了对年轻人过度依赖AI的担忧，强调AI应辅助而非替代独立思考。

锐评：AI有风险，倾诉需谨慎。（辰辰）