Claude 靠Opus4.7抢占风头,Google 也有大招,而且是三连发,咱逐个拆解
![]()
Google Gemini 三连发全景速览
从桌面端到开发者工具,再到语音合成,三条线同时发力
Google 这波属于憋了一股劲,要把 Gemini 生态从头铺到尾
一、Gemini Mac 桌面版
Google 首次把 Gemini 带上了 Mac 桌面
原生 Swift 开发,与 Antigravity 团队合作,据说从 idea 到原型只用了几天
![]()
直接说体验重点:
① 全局快捷键,随叫随到
Option + Space任何界面一键呼出 Gemini 迷你对话框,就像 Mac 的 Spotlight 一样
还有Option + Shift + Space可以打开完整聊天界面,两个快捷键都可以自定义
这个体验真的很顺滑
你在写代码突然卡壳了,Option + Space 问一句,答完继续写,全程不用切窗口、不用开浏览器
![]()
② 窗口共享,看到你在干什么
这是我觉得最有意思的功能
点击「Add files and tools → Share window」,Gemini 就能看到你当前窗口的内容——文档、代码、数据表格都行
它会根据你屏幕上的内容直接给出上下文相关的回答。
举个例子:你打开一个 Python 脚本,共享窗口后直接问「这段代码有什么 bug?」,它能直接看到代码给你分析,不用再复制粘贴了。
![]()
③ 创作能力集成
图片生成(Nano Banana)、视频生成(Veo)都内置了
桌面端直接就是一个创作工作站
④ 多设备同步
同一个 Google 账号,聊天记录和记忆跨设备同步——手机上聊到一半,Mac 上接着聊
系统要求:
项目
要求
系统版本
macOS Sequoia(15.0)或更高
芯片
仅 Apple Silicon(M 系列)
内存
8 GB 以上
磁盘空间
200 MB 以上
网络
需要稳定连接
费用
❝ 下载地址:gemini.google/mac
说实话,这个桌面 App 的定位很清晰——不开浏览器就能用 AI
对比 ChatGPT 桌面版,Gemini 的窗口共享是差异化亮点,它能直接"看到"你在干什么,上下文理解比纯文字对话强多了
不过目前只支持 Apple Silicon,Intel Mac 用户暂时无缘
而且本质上是联网应用,离线场景下帮不了你
二、Gemini CLI 支持 Subagents,重头戏来了
如果说 Mac App 是给普通用户的礼物,那 Subagents 就是给开发者的大杀器
之前用 Gemini CLI 处理复杂任务,最大的痛点是什么?上下文窗口越用越臃肿
查个代码架构,跑几轮测试,上下文就爆炸了,后面的对话质量直线下降
这个问题在 Claude Code 里也存在,它的解决方案是 Task 工具
现在 Gemini CLI 的答案是Subagents——一句话概括:主 Agent 终于有了自己的专家团队。
![]()
Subagents 架构一览 什么是 Subagents?
Subagents 就是跟主 Agent 并肩作战的「专家」
![]()
Gemini CLI - Parallel Subagents
每个 Subagent 都有:
独立的上下文窗口—— 不污染主对话
专属的系统指令—— 可以定制行为和人设
独立的工具集和 MCP 服务器—— 精确控制能做什么
执行完汇总返回—— 内部可能跑了几十轮工具调用,但返回给主 Agent 的只是一份精炼总结
这就意味着,你的主上下文永远干净利落,不会因为中间过程膨胀变慢。
三个内置 Subagent,开箱即用
名称
定位
什么时候用
generalist
通用型,继承所有工具
批量重构、跑大量命令、高输出量任务
codebase_investigator
代码库探索专家
架构分析、依赖追踪、Bug 根因定位
cli_help
Gemini CLI 使用专家
问配置、问命令、问功能怎么用
还有一个实验性的browser_agent,可以自动化浏览器操作——填表单、点按钮、提取页面信息。需要 Chrome 144+ 并在settings.json里手动启用。=
自定义 Subagent,一个 Markdown 文件搞定
重点来了:一个.md文件 = 一个专家 Agent
举个例子,定义一个前端专家:
---
name: frontend-specialist
description: Frontend specialist in building high-performance,
accessible, and scalable web applications.
tools:
-read_file
-grep_search
-glob
-list_directory
-web_fetch
-google_web_search
model: inherit
---
You are a Senior Frontend Specialist and UI/UX Architect.
Your goal is to design and implement exceptional,
production-grade user interfaces.### Core Principles:
-Architecture & Scalability
-Performance & Optimization
-Accessibility (A11y)
文件放到.gemini/agents/目录,Gemini CLI 自动识别。项目级的放.gemini/agents/(团队共享),个人全局的放~/.gemini/agents/。
配置项也很灵活:
字段
name
唯一标识,也是 @语法 调用时的名字
description
描述,主 Agent 靠这个决定何时派活
tools
可用工具列表,支持通配符(*全部、mcp_*所有 MCP 工具)
model
指定模型,默认inherit继承主 Agent
temperature
温度,0-2
max_turns
最大对话轮数,默认 30
timeout_mins
超时时间,默认 10 分钟
并行执行,效率起飞
Subagents支持并行运行。比如你要同时调研 5 个模块的架构,可以一口气派出 5 个 Subagent 同步执行,总耗时约等于最慢那一个。
你甚至可以直接说:
❝ "Run the frontend-specialist on each package in parallel."
不过要注意:并行执行代码编辑任务可能会冲突,多个 Agent 同时改文件容易互相覆盖。并行更适合只读型任务——分析、调研、测试。
@ 语法直接点名
用@符号可以精准派活,跳过主 Agent 的自动判断:
@codebase_investigator 帮我梳理认证模块的调用链路安全机制
@generalist 把项目里所有文件的 License 头更新一遍
@security-auditor 审计 src/api/ 目录的安全性
工具隔离:每个 Subagent 只能用你明确授权的工具,不会越权
递归保护:Subagent不能调用其他 Subagent,防止无限套娃、Token 爆炸。
还可以配合 Policy Engine(策略引擎)做更细粒度的权限控制,比如只允许某个 Subagent 执行git push。
用/agents命令可以随时查看当前所有可用的 Subagent:
![]()
Gemini CLI /agents 命令
我的判断:Subagents 是 Gemini CLI 迄今最重要的一次更新。之前我给 Gemini CLI 打了 99 分,现在加上 Subagents,可以认真跟 Claude Code 的 Task 工具掰手腕了。核心解决的问题是:让 AI 编程从「单打独斗」进化到「团队协作」。
❝ Subagents 文档:https://geminicli.com/docs/core/subagents/ GitHub:https://github.com/google-gemini/gemini-cli三、Gemini 3.1 Flash TTS:用自然语言「导演」AI 说话
最后一个更新在语音领域
Gemini 3.1 Flash TTS 是 Google 最新的文字转语音模型,核心卖点三个字:能控制
音质:Elo 1211,性价比最优象限
在 Artificial Analysis TTS 排行榜上(基于数千次人类盲测偏好),3.1 Flash TTS 拿到了Elo 1211 分。更关键的是,它被定位在「最具吸引力象限」——质量高、价格低。
在 TTS 领域,这个定位很有竞争力。ElevenLabs 质量确实好,但贵;开源方案便宜,但效果参差不齐
![]()
Artificial Analysis TTS 排行榜 Audio Tags:最大的创新
这是这次 TTS 更新最让我眼前一亮的功能。你可以在文本里嵌入Audio Tags(音频标签),用自然语言直接指导 AI 怎么说话:
场景导演(Scene Direction)设定环境和对话指令。比如告诉它「这是一个深夜广播节目,语气低沉温暖」,角色就会保持这个状态。
角色级控制(Speaker-level Specificity)为每个角色设置独立的 Audio Profile——语速、语调、口音都可以分别调。甚至可以用 inline tags 在句子中间切换表达方式。
一键导出(Seamless Export)在 Google AI Studio 里调好所有参数后,可以直接导出为 Gemini API 代码。调试一次,到处复用。
这个思路很聪明——与其让用户在后台调一堆参数滑块,不如让用户用自然语言直接「导演」。降低了创作门槛,又给专业用户足够的精细度。
其他亮点
70+ 语言支持,中文在列
原生多角色对话,做播客、有声书的朋友有福了
SynthID 水印,所有生成音频都带不可感知水印,标识 AI 生成内容
❝ 模型卡片:deepmind.google/models/model-cards/gemini-3-1-flash-audio/总结
Google 这波三连发,覆盖面很广:
更新
面向谁
一句话总结
Gemini Mac App
普通用户
Option + Space
随时呼出,窗口共享是亮点
Gemini CLI Subagents
开发者
主 Agent + 专家团队,上下文不再爆炸
Gemini 3.1 Flash TTS
内容创作者 / 开发者
Audio Tags 用自然语言控 AI 语音,70+ 语言
三个更新里,我个人最看好Gemini CLI Subagents。它解决了 AI 编程助手最核心的架构问题——单 Agent 上下文有限,复杂任务需要多 Agent 协作。Google 的实现方式(Markdown 定义 + 工具隔离 + 并行执行)简洁优雅,上手成本很低。
桌面 App 方便,TTS 有创新,但真正改变开发者日常工作流的,是 Subagents。
制作不易,如果这篇文章觉得对你有用,可否点个关注。给我个三连击:点赞、转发和在看。若可以再给我加个,谢谢你看我的文章,我们下篇再见!
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.