网易首页 > 网易号 > 正文 申请入驻

Gemini 3的意义:AI已超越“幻觉阶段”,逼近人类,“人机协作”将从“人对AI纠错”走向“人指导AI工作”

0
分享至

谷歌最新发布的Gemini 3模型正标志着人工智能领域的一个关键转折点。

华尔街见闻此前提及,美东时间18日周二,谷歌正式发布备受期待的该司迄今最强大人工智能(AI)模型Gemini 3,并于发布首日立即在谷歌搜索、Gemini应用程序App及多个开发者平台同步上线,在多个盈利产品中投入使用。

谷歌高管在新闻发布会上强调,在衡量人工智能模型性能的几个热门行业排行榜上,Gemini 3处于领先地位。谷歌AI研究实验室DeepMind的CEO Demis Hassabis表示,Gemini 3是"世界上最好的多模态理解模型",也是公司迄今最强大的智能体和代码生成模型。

根据沃顿商学院教授Ethan Mollick的深度测评,Gemini 3的发布及其配套工具“Antigravity”展示了惊人的“代理”能力。与三年前的GPT-3模型相比,AI不再仅仅是生成文本,而是能够编写代码、构建可交互的应用、执行多步骤任务。

Mollick指出,这种从“描述”到“行动”的飞跃,意味着AI正从一个对话伙伴,演变为一个可以接入计算机并完成实际工作的通用工具。

Mollick的结论是,我们正从“聊天机器人时代”迈向“数字同事时代”。Gemini 3虽然并非完美无瑕,但其所犯的错误已不再是无中生有的“幻觉”,而更接近人类在判断或意图理解上的偏差。

这表明,人机协作的模式正在改变,人类所做的将不再是修正AI的低级错误,而是为其提供高阶的战略指引和方向。这或许是自ChatGPT发布以来,AI领域发生的最大变革。

以下为Ethan Mollick测评文章全文:

三年,从 GPT-3 到 Gemini 3
从聊天机器人到智能体
Ethan Mollick
2025 年 11 月 19 日
我一直在测试谷歌新发布的 Gemini 3 模型。它非常出色。但与其罗列基准数字,不如让 AI 亲自演示这三年我们走了多远——我就是这样做的。
ChatGPT 发布至今已近三年。在它上线前几天,我在这份 Substack 上写了第一篇关于 OpenAI 更早期的 GPT-3 的文章。随后 ChatGPT 横空出世,我立刻又写了一篇:“我通常对技术预测很谨慎,但这次它会比我们预期得更快、更剧烈地改变我们的世界。不再只是自动化重复、危险的工作,现在第一批被 AI 颠覆的,可能是更偏分析、创意、写作与沟通的岗位。”
今天看来,我说对了。

(插图:三年前我用 GPT-3.5 后的首篇文章截图)
我可以口头解释初代 ChatGPT 与今天谷歌发布的 Gemini 3 有多大差距,但没必要。我把上面那张截图扔给 Gemini 3,只写了一句话:
我:“做点东西,让大伙儿看看 AI 这三年进步了多少。”
Gemini:“当然可以。你这条推文来自 2022 年 11 月——现代 AI 热潮的前夜。当时最大的‘哇点’是 AI 能写一段通顺的文字,或者给‘糖果动力超光速飞船逃离水獭’这种傻题目写首小诗。
为了展示进步,我不仅用文字描述,而是直接给你做了一个可交互、可游玩的‘糖果动力超光速飞船模拟器’。
2022 年,AI 只能描述引擎;2025 年,AI 能把引擎写出来、把界面画出来,还让你亲自开飞船。”

它真的做了一个迷你游戏:我得靠糖果能量摆脱追杀的水獭,途中穿插小诗和各种搞笑更新。读这篇博客的人大概早知道 AI 能写代码,但更有趣的是——当你不再把 Gemini 3 当成“聊天框”,而当成“别的东西”时,它还能干什么。
会写代码的工具,不只是“写代码的工具”伴随 Gemini 3,谷歌还发布了 Antigravity。程序员一看就懂:它跟 Claude Code、OpenAI Codex 类似,给你电脑权限,能在指导下自主写程序。
如果你不是程序员,可能会忽略它——我觉得这是错的。“会写代码”不等于“当程序员”,而是“能完成任何在电脑上才能完成的活儿”。 于是,这些工具的本质被彻底改写。
Gemini 3 极擅长写代码,这一点即使你不自认“程序员”也与你息息相关。AI 界的一个底层视角是:你在电脑上做的任何事,归根到底都是代码;只要 AI 能写代码,它就能建仪表盘、扒网站、做 PPT、读文件…… 这让“会写代码的智能体”成了通用工具。Antigravity 把这一理念产品化:给我一个“收件箱”,我把任务派给智能体,它们需要批准或帮助时会通知我。

(插图:四个智能体同时跑,一个在干活,一个等我回应)
我跟它们不用代码,用英语;它们用代码替我干活。Gemini 3 擅长做计划,知道该干什么、何时请示。比如我把历年 newsletter 的稿子全放在一个文件夹,然后吩咐:
“给我做一个漂亮的网页,汇总我对 AI 的所有预测,再上网搜搜哪些说对了哪些说错了。”
它读完所有文件、跑代码、先递给我一份可编辑的方案——这是它第一次开口问我,理解之准确让我惊讶。我小改几处,放它去干。

随后它搜网页、建站、接管浏览器验效果,再把成品打包给我。我像对真人同事一样提修改意见,它继续迭代。

它并非完美无缺——智能体还没到那一步。我没发现幻觉,但确有地方需要我纠正,不过那些错误更像“人类同事会有的判断偏差或误解”,而非传统 AI 的离谱幻觉。重要的是,我感觉自己能够掌控人工智能的决策,因为人工智能会定期检查并确认其工作,而且我的操作过程清晰可见。这种感觉更像是管理一位队友,而不是通过聊天界面与人工智能进行沟通。
博士级智力?Antigravity 并非唯一惊喜。另一重震撼在于——它展现了真正的“判断力”。
我常吐槽:AI benchmark 已经卷成一锅粥。Gemini 3 在大多数榜单上领先(也许还打不过 200 美元的 GPT-5 Pro,但等 Gemini 3 的“深度思考”版出来可能就翻盘)。行业爱用一句广告词:“博士级智力”。我决定真刀真枪测一下。
我把十年前众筹研究的一堆旧文件扔给它——文件名像“project_final_seriously_this_time_done.xls”,格式还是上古 STATA。命令只有一句:
“自己摸懂数据结构,把 STATA 文件清理好,准备做新分析。”
它真的把损坏的数据恢复了,把复杂环境摸透了。
接着我给了它一个典型“博士二年级小论文”任务,不加任何提示:
“很好,现在用这些数据写一篇原创论文。深入调研领域,把主题拔高到创业或战略理论的层面,做严谨统计,写成期刊格式。”
它自己选题、提假设、跑统计、出图表、排版成文——最难的“选题与可执行性平衡”它自己走钢丝搞定了。我仅含糊地说“再充实、再改进”,最终拿到 14 页论文。

(插图:论文前两页)
更惊艳的是,它自创了一个指标:用 NLP 把项目描述与海量描述做数学比对,衡量“众筹创意独特性”。代码自己写,结果自己验。

所以,这算“博士级”吗?
如果你指“能干顶尖高校里一个合格研究生的活”,部分答案是“yes”。但它也有研究生通病:统计方法有瑕疵、理论跳跃过大、证据链不够严谨…… 我们已越过“幻觉”阶段,进入更微妙、更“人类”的缺陷区。有趣的是,当我像带学生一样给开放建议(“再多补众筹文献以确立方法”),它提升显著——也许再多引导就能接近“博士”。
Gemini 3 是什么?
它是一个极出色的“思考+执行”伙伴,全球数十亿人可随手调用;也是一面镜子,照出 AI 并未放缓、智能体崛起、人类需学会管理“聪明 AI”等多重趋势。
三年前,我们为“机器能写水獭诗”而惊叹;不到 1000 天后,我在跟一个自建研究环境的智能体辩论统计方法。
聊天机器人时代正在让位于“数字同事”时代。
没错,Gemini 3 仍不完美,需要会指挥、会核查的“人类经理”。但“人在回路”正从“人替 AI 擦屁股”演变为“人指导 AI 干活”——这也许是 ChatGPT 发布以来最大的范式迁移。
彩蛋:
我让 Gemini“纯用代码给我做一张 Substack 封面图,先查尺寸”,它先上网搜规格,再纯靠数学画图,一条龙搞定。

** obligatory 警告:**
让 AI 智能体获得电脑权限有风险——它可能不经询问就移动/删除文件,甚至泄露文档。等工具面向非程序员时会好很多;当下务必谨慎。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
10部值得N刷的欧美谍战剧:《国土安全》排第6《夜班经理》排第9

10部值得N刷的欧美谍战剧:《国土安全》排第6《夜班经理》排第9

TVB的四小花
2026-04-26 15:22:10
人到晚年,最损寿命的根本不是生病,而是这2种“勤快”

人到晚年,最损寿命的根本不是生病,而是这2种“勤快”

荷兰豆爱健康
2026-03-26 13:36:36
身价百亿,坐拥北京一条街,出门私人飞机,京圈顶级富婆都有谁?

身价百亿,坐拥北京一条街,出门私人飞机,京圈顶级富婆都有谁?

君笙的拂兮
2026-04-25 03:53:22
特朗普:伊朗石油系统3天内爆炸,美军封锁“极为有效”

特朗普:伊朗石油系统3天内爆炸,美军封锁“极为有效”

海阔山遥YAO
2026-04-27 05:15:48
张玉宁现状:两鬓已斑白,离婚要儿子不要房,至今单身征战苏超

张玉宁现状:两鬓已斑白,离婚要儿子不要房,至今单身征战苏超

手工制作阿歼
2026-04-25 17:24:00
民调机构:德国选择党支持率创新高

民调机构:德国选择党支持率创新高

财联社
2026-04-26 13:39:06
局势反转!辽宁舰055南北夹击,美日菲联军在南海彻底抬不起头

局势反转!辽宁舰055南北夹击,美日菲联军在南海彻底抬不起头

利刃号
2026-04-26 18:52:16
为讨好美国和日本,叫嚣中国该解除核武的时殷弘,他现状如何?

为讨好美国和日本,叫嚣中国该解除核武的时殷弘,他现状如何?

谈史论天地
2026-03-27 11:35:07
王翦装病八年,把始皇赏的酒全倒坛子里,死后儿子砸碎酒坛才明白

王翦装病八年,把始皇赏的酒全倒坛子里,死后儿子砸碎酒坛才明白

卡西莫多的故事
2026-03-23 10:06:26
这跟不穿有啥区别?好莱坞女星走纽约红毯,穿衣个个大胆,太前卫

这跟不穿有啥区别?好莱坞女星走纽约红毯,穿衣个个大胆,太前卫

法老不说教
2026-04-23 19:09:50
雷电+10级雷雨阵风,“强对流”袭鲁!青岛的雨+大风马上到货,将持续到明天→

雷电+10级雷雨阵风,“强对流”袭鲁!青岛的雨+大风马上到货,将持续到明天→

先锋新闻
2026-04-26 08:17:07
穆杰塔巴收到伊朗高层联名密信,打开一看:再不回头就是灭顶之灾

穆杰塔巴收到伊朗高层联名密信,打开一看:再不回头就是灭顶之灾

小涛叨叨
2026-04-26 17:23:59
美专家警告美国:若不发动战争,与中国搞零和博弈,是一个大错误

美专家警告美国:若不发动战争,与中国搞零和博弈,是一个大错误

清欢百味
2026-04-24 09:55:28
时隔4个月,解放军4万吨巨舰再次出海,打了美日菲一个措手不及

时隔4个月,解放军4万吨巨舰再次出海,打了美日菲一个措手不及

空天力量
2026-04-25 17:17:41
A股:刚刚,重要消息传来,核心信号落地,周一行情后市走向预判

A股:刚刚,重要消息传来,核心信号落地,周一行情后市走向预判

云鹏叙事
2026-04-27 00:00:06
属鼠人!4月27日至5月5日,一劫两喜临门,三条忠告务必记牢

属鼠人!4月27日至5月5日,一劫两喜临门,三条忠告务必记牢

户外阿崭
2026-04-27 04:49:05
自意甲采用双循环赛制以来,米兰和尤文首次两回合均未能破门

自意甲采用双循环赛制以来,米兰和尤文首次两回合均未能破门

懂球帝
2026-04-27 05:28:02
如果马寅初没提出人口论,也没有计划生育,如今我国会怎么样?

如果马寅初没提出人口论,也没有计划生育,如今我国会怎么样?

旧史新谭
2026-04-24 15:49:04
4位大佬联合签名,穆杰塔巴麻烦了,德黑兰炸锅!

4位大佬联合签名,穆杰塔巴麻烦了,德黑兰炸锅!

深度报
2026-04-26 22:51:52
卡里克转会窗有自己心仪人选:中场重塑胖虎+梅努,后卫想要他

卡里克转会窗有自己心仪人选:中场重塑胖虎+梅努,后卫想要他

里芃芃体育
2026-04-27 03:00:03
2026-04-27 06:07:00
华尔街见闻官方 incentive-icons
华尔街见闻官方
中国领先的金融商业信息提供商
145180文章数 2653388关注度
往期回顾 全部

科技要闻

涨价浪潮下,DeepSeek推动AI“价格战”

头条要闻

特朗普内阁又一女部长落马:强迫男下属为其提供性服务

头条要闻

特朗普内阁又一女部长落马:强迫男下属为其提供性服务

体育要闻

森林狼3比1掘金:逆境中杀出了多孙穆?!

娱乐要闻

仅次《指环王》的美剧,有第二季

财经要闻

事关新就业群体,中办、国办发文

汽车要闻

预售19.38万元起 哈弗猛龙PLUS七座版亮相

态度原创

旅游
手机
本地
数码
公开课

旅游要闻

2000余场特色活动邀市民欢度五一

手机要闻

vivo Y600 Pro配备 6.83 英寸 1.5K 护眼屏,新机明天见!

本地新闻

云游中国|逛世界风筝都 留学生探秘中国传统文化

数码要闻

三星Tab S12系列进入固件测试阶段 或配10500mAh大电池

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版