Gemini 3的意义：AI已超越“幻觉阶段”，逼近人类，“人机协作”将从“人对AI纠错”走向“人指导AI工作”|代码|程序员|智能体|大模型|人工智能|ethan|gemini

Gemini 3的意义：AI已超越“幻觉阶段”，逼近人类，“人机协作”将从“人对AI纠错”走向“人指导AI工作”

分享至

谷歌最新发布的Gemini 3模型正标志着人工智能领域的一个关键转折点。

华尔街见闻此前提及，美东时间18日周二，谷歌正式发布备受期待的该司迄今最强大人工智能（AI）模型Gemini 3，并于发布首日立即在谷歌搜索、Gemini应用程序App及多个开发者平台同步上线，在多个盈利产品中投入使用。

谷歌高管在新闻发布会上强调，在衡量人工智能模型性能的几个热门行业排行榜上，Gemini 3处于领先地位。谷歌AI研究实验室DeepMind的CEO Demis Hassabis表示，Gemini 3是"世界上最好的多模态理解模型"，也是公司迄今最强大的智能体和代码生成模型。

根据沃顿商学院教授Ethan Mollick的深度测评，Gemini 3的发布及其配套工具“Antigravity”展示了惊人的“代理”能力。与三年前的GPT-3模型相比，AI不再仅仅是生成文本，而是能够编写代码、构建可交互的应用、执行多步骤任务。

Mollick指出，这种从“描述”到“行动”的飞跃，意味着AI正从一个对话伙伴，演变为一个可以接入计算机并完成实际工作的通用工具。

Mollick的结论是，我们正从“聊天机器人时代”迈向“数字同事时代”。Gemini 3虽然并非完美无瑕，但其所犯的错误已不再是无中生有的“幻觉”，而更接近人类在判断或意图理解上的偏差。

这表明，人机协作的模式正在改变，人类所做的将不再是修正AI的低级错误，而是为其提供高阶的战略指引和方向。这或许是自ChatGPT发布以来，AI领域发生的最大变革。

以下为Ethan Mollick测评文章全文：

三年，从 GPT-3 到 Gemini 3
从聊天机器人到智能体
Ethan Mollick
2025 年 11 月 19 日
我一直在测试谷歌新发布的 Gemini 3 模型。它非常出色。但与其罗列基准数字，不如让 AI 亲自演示这三年我们走了多远——我就是这样做的。
ChatGPT 发布至今已近三年。在它上线前几天，我在这份 Substack 上写了第一篇关于 OpenAI 更早期的 GPT-3 的文章。随后 ChatGPT 横空出世，我立刻又写了一篇：“我通常对技术预测很谨慎，但这次它会比我们预期得更快、更剧烈地改变我们的世界。不再只是自动化重复、危险的工作，现在第一批被 AI 颠覆的，可能是更偏分析、创意、写作与沟通的岗位。”
今天看来，我说对了。

（插图：三年前我用 GPT-3.5 后的首篇文章截图）
我可以口头解释初代 ChatGPT 与今天谷歌发布的 Gemini 3 有多大差距，但没必要。我把上面那张截图扔给 Gemini 3，只写了一句话：
我：“做点东西，让大伙儿看看 AI 这三年进步了多少。”
Gemini：“当然可以。你这条推文来自 2022 年 11 月——现代 AI 热潮的前夜。当时最大的‘哇点’是 AI 能写一段通顺的文字，或者给‘糖果动力超光速飞船逃离水獭’这种傻题目写首小诗。
为了展示进步，我不仅用文字描述，而是直接给你做了一个可交互、可游玩的‘糖果动力超光速飞船模拟器’。
2022 年，AI 只能描述引擎；2025 年，AI 能把引擎写出来、把界面画出来，还让你亲自开飞船。”

它真的做了一个迷你游戏：我得靠糖果能量摆脱追杀的水獭，途中穿插小诗和各种搞笑更新。读这篇博客的人大概早知道 AI 能写代码，但更有趣的是——当你不再把 Gemini 3 当成“聊天框”，而当成“别的东西”时，它还能干什么。
会写代码的工具，不只是“写代码的工具”伴随 Gemini 3，谷歌还发布了 Antigravity。程序员一看就懂：它跟 Claude Code、OpenAI Codex 类似，给你电脑权限，能在指导下自主写程序。
如果你不是程序员，可能会忽略它——我觉得这是错的。“会写代码”不等于“当程序员”，而是“能完成任何在电脑上才能完成的活儿”。于是，这些工具的本质被彻底改写。
Gemini 3 极擅长写代码，这一点即使你不自认“程序员”也与你息息相关。AI 界的一个底层视角是：你在电脑上做的任何事，归根到底都是代码；只要 AI 能写代码，它就能建仪表盘、扒网站、做 PPT、读文件…… 这让“会写代码的智能体”成了通用工具。Antigravity 把这一理念产品化：给我一个“收件箱”，我把任务派给智能体，它们需要批准或帮助时会通知我。

（插图：四个智能体同时跑，一个在干活，一个等我回应）
我跟它们不用代码，用英语；它们用代码替我干活。Gemini 3 擅长做计划，知道该干什么、何时请示。比如我把历年 newsletter 的稿子全放在一个文件夹，然后吩咐：
“给我做一个漂亮的网页，汇总我对 AI 的所有预测，再上网搜搜哪些说对了哪些说错了。”
它读完所有文件、跑代码、先递给我一份可编辑的方案——这是它第一次开口问我，理解之准确让我惊讶。我小改几处，放它去干。

随后它搜网页、建站、接管浏览器验效果，再把成品打包给我。我像对真人同事一样提修改意见，它继续迭代。

它并非完美无缺——智能体还没到那一步。我没发现幻觉，但确有地方需要我纠正，不过那些错误更像“人类同事会有的判断偏差或误解”，而非传统 AI 的离谱幻觉。重要的是，我感觉自己能够掌控人工智能的决策，因为人工智能会定期检查并确认其工作，而且我的操作过程清晰可见。这种感觉更像是管理一位队友，而不是通过聊天界面与人工智能进行沟通。
博士级智力？Antigravity 并非唯一惊喜。另一重震撼在于——它展现了真正的“判断力”。
我常吐槽：AI benchmark 已经卷成一锅粥。Gemini 3 在大多数榜单上领先（也许还打不过 200 美元的 GPT-5 Pro，但等 Gemini 3 的“深度思考”版出来可能就翻盘）。行业爱用一句广告词：“博士级智力”。我决定真刀真枪测一下。
我把十年前众筹研究的一堆旧文件扔给它——文件名像“project_final_seriously_this_time_done.xls”，格式还是上古 STATA。命令只有一句：
“自己摸懂数据结构，把 STATA 文件清理好，准备做新分析。”
它真的把损坏的数据恢复了，把复杂环境摸透了。
接着我给了它一个典型“博士二年级小论文”任务，不加任何提示：
“很好，现在用这些数据写一篇原创论文。深入调研领域，把主题拔高到创业或战略理论的层面，做严谨统计，写成期刊格式。”
它自己选题、提假设、跑统计、出图表、排版成文——最难的“选题与可执行性平衡”它自己走钢丝搞定了。我仅含糊地说“再充实、再改进”，最终拿到 14 页论文。

（插图：论文前两页）
更惊艳的是，它自创了一个指标：用 NLP 把项目描述与海量描述做数学比对，衡量“众筹创意独特性”。代码自己写，结果自己验。

所以，这算“博士级”吗？
如果你指“能干顶尖高校里一个合格研究生的活”，部分答案是“yes”。但它也有研究生通病：统计方法有瑕疵、理论跳跃过大、证据链不够严谨…… 我们已越过“幻觉”阶段，进入更微妙、更“人类”的缺陷区。有趣的是，当我像带学生一样给开放建议（“再多补众筹文献以确立方法”），它提升显著——也许再多引导就能接近“博士”。
Gemini 3 是什么？
它是一个极出色的“思考+执行”伙伴，全球数十亿人可随手调用；也是一面镜子，照出 AI 并未放缓、智能体崛起、人类需学会管理“聪明 AI”等多重趋势。
三年前，我们为“机器能写水獭诗”而惊叹；不到 1000 天后，我在跟一个自建研究环境的智能体辩论统计方法。
聊天机器人时代正在让位于“数字同事”时代。
没错，Gemini 3 仍不完美，需要会指挥、会核查的“人类经理”。但“人在回路”正从“人替 AI 擦屁股”演变为“人指导 AI 干活”——这也许是 ChatGPT 发布以来最大的范式迁移。
彩蛋：
我让 Gemini“纯用代码给我做一张 Substack 封面图，先查尺寸”，它先上网搜规格，再纯靠数学画图，一条龙搞定。

** obligatory 警告：**
让 AI 智能体获得电脑权限有风险——它可能不经询问就移动/删除文件，甚至泄露文档。等工具面向非程序员时会好很多；当下务必谨慎。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.