一周AI大事：手机可用小模型井喷，宇树与天工巅峰对决|机器人|算法|编程|上下文|工作流

分享至

本周焦点： Gemma 3 270M、SuperFly & Chickbrain / Llama 3.1 8B Slim、LFM2-VL、Matrix-Game 2.0、Matrix-3D、Nvidia Cosmos & Omniverse、Sonnet 4支持百万级Token上下文、Jan-v1、gpt-oss-20b-base、CoAct-1。

一、重磅工具：多款轻量化模型问世——小身板里有大乾坤

新闻：近期业界发布多款小型高效AI模型。这类“轻量化AI模型”易于微调，并且体积极小，可以直接在智能手机等边缘设备上本地运行AI应用。

谷歌推出Gemma 3 270M，这是一款“效率超高”的开源紧凑型AI模型，不仅能在智能手机上离线运行，还能针对特定应用快速微调。Gemma 3 270M的指令遵循能力表现出色，IFEval评分在同等规模AI模型中位居榜首。

Gemma 3 270M体现了“工欲善其事，必先利其器”的理念。它本身是一款高质量的基础模型，开箱即用，指令遵循能力出色，而真正的潜力在于微调。经过专门优化后，Gemma 3 270M能以极高的准确性、速度和成本效益执行文本分类、数据提取等任务。目前Gemma 3 270M已在HuggingFace平台上线。

西班牙公司Multiverse Computing发布小型高效AI模型SuperFly和ChickBrain。Multiverse Computing受量子计算启发开发了大模型压缩算法CompactifAI，能在保持模型性能的同时大幅缩减现有AI模型的规模。上述两款模型都是通过CompactifAI算法压缩而成。

ChickBrain又名Llama 3.1 8B Slim，是一款基于Llama 3.1 8B的32亿参数模型，运行速度更快、成本更低，且“性能毫不逊色”。微型AI模型SuperFly则是SmlLM2-135的压缩版，仅有9400万参数，专为智能家居设备设计。 SuperFly的设计初衷是基于设备操作记录等非常有限的数据进行训练。Multiverse Computing公司设想将其嵌入家用电器，让用户可以通过“开始快洗”等语音指令来操作设备。

Liquid AI发布LFM2-VL系列视觉语言模型，其中包含4.4亿和16亿两种参数规模，针对低延迟、高精度的视觉语言任务进行了优化。LFM2-VL系列模型将LFM2液体基础模型的核心架构与视觉编码器相结合，其端侧推理速度提升了两倍。目前LFM2-VL系列模型已在Hugging Face上线。

锐评：浓缩的都是精华，AI界的军备竞赛终于从“比谁的航母大”转向了“比谁的无人机更灵活”。

二、AI技术与产品发布——大厂卷技术，小厂卷开源

1. 新闻：昆仑万维在技术发布周期间推出两款开源世界模型：Matrix-Game 2.0和Matrix-3D。这两款模型在交互式AI视频和3D世界生成方面的性能有显著提升，进一步拓宽了实时物理感知模拟的边界。其中Matrix-Game 2.0聚焦于视觉驱动的交互方案，并已完全开源，技术文档和模型均可从HuggingFace下载。模型特性包括实时蒸馏、帧级动作注入以及大规模交互式数据管道。

锐评：这是要打造AI版的《西部世界》还是《头号玩家》？

2. 新闻：英伟达发布了全新的Cosmos物理AI模型和Omniverse机器人技术库。全新的Nvidia Omniverse™技术库与Nvidia Cosmos™世界基础模型（WFM）将加速机器人解决方案的开发与部署，重点针对机器人和工业数字孪生领域，覆盖从感知到行动的完整模拟、训练和部署工作流。

锐评：AI淘金热中，最赚钱的永远是卖铲子的。

3. 新闻：Anthropic公司的Claude Sonnet 4现已支持100万Token上下文窗口，是其原有上下文长度的五倍。这意味着Claude能在单次请求中处理多达75000行代码。公司表示，这一飞跃意味着模型一次便可处理整个代码库或数十篇论文。相关API和AWS Bedrock平台已经开放公测。

锐评：AI从“鱼的7秒钟记忆”进化到了能读懂整本《战争与和平》，堪称懒人福利。

4. 新闻：Anthropic的Claude Opus 4和4.1现可在必要时终止“持续有害或侮辱性”的对话。这项功能基于AI模型福祉研究，仅适用于索取非法或暴力内容等极端情况，旨在保护AI模型免受有害互动或行为失范的影响。

锐评：AI终于学会了说“不”。

5. 新闻：Anthropic为Claude AI推出学习模式，引导用户逐步推理而非直接提供答案。这些新的“学习模式”将Claude转变为教学伙伴，强调引导式探索而非即时解答。这种模式已经向Claude.ai和Claude Code的普通用户开放，旨在提升人类学习效果，并为ChatGPT的学习模式提供一种替代方案。

锐评：AI正从无所不知的“答案机”转型为循循善诱的“私人家教”。

6. 新闻：Menlo Research发布Jan-v1。这是Qwen3-4B-thinking的微调版本，针对本地环境中的SimpleQA（简单问答）任务进行优化。Jan-v1在SimpleQA任务上的性能可媲美Perplexity Pro，能在本地运行并通过MCP工具使用搜索数据源，堪称开源的本地化搜索助手。

锐评：随身搜索神器来了。

7. 新闻：AI研究员杰克·莫里斯（Jack Morris）创建了gpt-oss-20b-base。他通过逆转 gpt-oss-20b的对齐（alignment）过程，打造出响应更快、未经审查的“基础”模型。莫里斯在社交平台X上分享了研究成果，并将gpt-oss-20b-base模型发布在 HuggingFace上。严格来说，gpt-oss-20b-base并非真正意义上的基础模型，而是通过低秩适应（LoRA）技术撤销对齐训练的模型。此举虽然让其适用于更多任务，但也引发了关于对齐和安全风险的担忧。

锐评：AI大神总喜欢“拆封条”。

8. 新闻：谷歌正在为Gemini升级个性化记忆功能，包括“个人情境”（Personal Context）和“临时对话”（Temporary Chat），让用户可以控制Gemini对先前互动的记忆，从而提升其个性化体验。“个人情境”功能可帮助Gemini能够记住过往的聊天互动，而“临时对话”则允许用户进行一次性对话，且对话内容不会被纳入个性化记忆中。这些功能使Gemini在个性化和记忆方面追平了Anthropic和OpenAI开发的同类模型。

锐评：用户终于不用在每次对话时都要告诉Gemini“我是谁”了。

9. 新闻：谷歌在Google Flights中推出了一款名为“Flight Deals”的AI搜索工具。这款工具使用定制化的Gemini 2.5，帮助用户通过诸如“美食之都一周游”之类的自然语言查询来搜索低价机票。

锐评：能省钱是硬道理。

10. 新闻：自GPT-5发布以来的一周内，OpenAI进行了多项后续调整。针对用户因无法使用旧模型产生的强烈不满，OpenAI在模型选择器中重新加入了选择GPT-4o等旧版模型的选项。OpenAI曾在GPT-5发布时移除了该功能，但最终还是撤销了这一决定，为偏好旧模型的用户恢复了选择权。OpenAI还发现GPT-5存在路由错误，导致许多用户被导向性能较弱的GPT-5变体。修复后，用户得以访问性能更强的“思考”版本。此外，OpenAI发布了GPT-5提示词指南，帮助开发者针对GPT-5编写更有效的提示词，同时还推出提示词优化工具，可以提炼复杂指令并解释调整原因，从而有助于用户更精准、更清晰地利用GPT-5的推理能力。为应对需求，OpenAI还在扩充算力集群，并为Plus和Pro版订阅用户增加个性化设置以及第三方连接器（Dropbox、Gmail、Teams）等定制选项。

锐评：即便是行业领头羊，也免不了“上线先公测，用户当QA”。

11. 新闻：微软已将GPT-5全面集成至Copilot。全新的“智能模式”让消费者和企业用户在网页端、Windows、Mac和移动端Copilot中均能体验到GPT-5的强大功能。

锐评：实力演绎什么叫“近水楼台先得月”。

三、AI研究资讯——学霸的世界我不懂，但听起来很厉害

1. 新闻：Meta研究人员发表名为《Llama大规模高效推测解码》（Efficient Speculative Decoding for Llama at Scale）的新技术论文，概述了在生产级Llama系统中部署快速推测解码所面临的挑战和解决方案。论文详细介绍了如何通过大规模推测解码技术为Llama提速。

锐评：Llama立志要当AI界的博尔特，回复像闪电。

2. 新闻：Salesforce和南加州大学（USC）研究人员开发出CoAct-1，这是一款将图形用户界面（GUI）导航与代码执行相结合的AI智能体。在论文《CoAct-1: 以编码为行动的计算机操作智能体》（CoAct-1: Computer-using Agents with Coding as Actions）中，研究团队展示了CoAct-1混合系统如何在基准测试中取得SOTA成绩，并能以更少步骤高效完成复杂任务。CoAct-1有望实现企业自动化，但仍面临安全和人类监督方面的问题。

锐评：CoAct-1又会砸掉哪种员工的饭碗？

四、AI商业与政策——风口浪尖全是生意

1. 新闻：据报道，DeepSeek（深度求索）的下一代模型因华为芯片问题而推迟发布。《金融时报》援引消息称，供应问题是导致模型延期的主因。

锐评：应了那句古话：好事多磨。

2. 新闻：ChatGPT移动应用吸金势头强劲。自2023年5月份以来，其应用内用户消费支出已达20亿美元，约为竞争对手Claude和Grok的30倍。ChatGPT应用的下载量亦领先全球，达到6.9亿次，彰显出强大的市场主导地位。

锐评：聊得越多，ChatGPT越来钱。

3. 新闻：Anthropic凭借其在AI编程应用领域的主导地位，年化收入迅速达到50亿美元。然而，Anthropic近四分之一的收入依赖于Cursor和GitHub Copilot，对AI编程客户的依存度较高。OpenAI新发布的GPT-5模型性能相近但定价显著更低，可能动摇Anthropic的客户基础。

锐评：把鸡蛋放在一个篮子里有风险。

4. 新闻：企业级AI公司Cohere在近期完成5亿美元融资后，估值达到68亿美元，并任命 Meta前AI研究副总裁乔尔·皮诺（Joelle Pineau）为首席AI官，专注于开发实用且注重隐私的AI应用。

锐评：融资、挖人、讲故事，Cohere正在教科书式地扮演一个合格的AI独角兽。

5. 新闻：“氛围编程”初创公司Lovable首席执行官安东·奥斯卡（Anton Osika）表示，公司目标是在12个月内实现10亿美元的年度经常性收入（ARR）。这家成立于2023年的欧洲AI明星企业在8个月内就实现1亿美元ARR，并预计今年年底ARR将达到2.5亿美元。今年夏天，公司刚刚以18亿美元的估值完成2亿美元融资。

锐评：Lovable的增长速度堪比坐火箭，但是传奇还是泡沫只有时间知道。

6. 新闻：消息称美国AI搜索领域头部初创公司Perplexity正计划以全现金方式收购谷歌旗下的Chrome浏览器，出价高达345亿美元。

锐评：新秀敢叫板行业巨人，貌似公关意义远大于实际成交。

7. 新闻：Anthropic收购提示词管理与LLM可观测性平台Humanloop，以增强企业级AI工具的能力，并与OpenAI等对手竞争。Humanloop的技术核心是利用“模型上下文协议”（MCP）将上下文嵌入到日志和追踪数据中，从而管理复杂的AI遥测数据。此次收购将使Anthropic能为大型企业提供更主动的异常检测、根本原因分析和可行的洞见。

锐评：Anthropic在企业服务战场上给自己紧急加装了一块“重甲”。

8. 新闻：xAI联合创始人伊戈尔·巴布什金（Igor Babuschkin）宣布离职，创办Babuschkin Ventures。巴布什金曾负责xAI的工程团队，他新创办的风险投资公司将专注于AI安全研究，并投资推动人类进步的初创企业。

锐评：行业大佬们总喜欢转行去指导别人。

9. 新闻：AI伴侣类应用越来越受欢迎。截至今年7月份，该类应用营收同比增长64%，预计2025年全年将达到1.2亿美元。2025年以来，至少已经有128款AI伴侣应用发布，上半年总下载量超过6000万次，其中包括来自Replika、Character.AI、PolyBuzz、Chai 等公司的应用，但排名前10%的应用几乎包揽了近90%的收入。

锐评：AI伴侣的火爆，精准切中了当代人的“孤独”感。

10. 新闻：8月14日，全球首个以人形机器人为核心参赛主体的综合性大型赛事，世界人形机器人运动会，在北京国家速滑馆“冰丝带”开幕。来自16个国家的280支队伍、500多台人形机器人在3大类18个赛项的487场比赛中展开角逐。

值得注意的是，田径1500米决赛中，宇树北京灵翌科技队使用宇树春晚机器人同款H1人形机器人以6分34秒的成绩摘金；“天骄”队的“天工”机器人夺得亚军，成绩为6分55秒；杭州宇树科技以7分10秒的成绩获得季军。

田径400米决赛中，宇树上海高羿科技的H1人形机器人以1分28秒03的成绩斩获第二枚金牌；“天卓”和“天骄”队采用的“天工”机器人分获亚、季军。

星动纪元全尺寸双足人形机器人星动L7则在原地跳高项目中以95.641cm的高度斩获冠军。

百米飞人决战中，天工机器人以21.5秒夺冠，宇树H1包揽二三名。

此外在场景赛中，北京人形机器人创新中心派出的天轶2.0以全自主方式将27枚末端直径仅为8毫米的细长物料准确插入收纳箱的孔洞中，包揽世界人形机器人运动会物料整理冠亚军。

机器人“肇事逃逸”了！网友：他就是冲着撞人去的！（来源：科技大佬见闻）

锐评：与其说是比赛，不如说是未来“打工人”的岗前技能大摸底。

11. 新闻：特斯拉正试图扩大其自动驾驶出租车服务的范围，积极谋划进入其他美国大城市。公司正在纽约市为Autopilot团队招聘车辆操作员，时薪30美元。按照首席执行官埃隆·马斯克（Elon Musk）的计划，特斯拉的目标是到今年年底，让美国一半以上的人口能够使用其自动驾驶出租车平台。

锐评：美国出租车司机的饭碗岌岌可危。

五、AI观察与评论——冷思考与热议论