网易首页 > 网易号 > 正文 申请入驻

Gemini 3的意义:AI已超越“幻觉阶段”,逼近人类,“人机协作”将从“人对AI纠错”走向“人指导AI工作”

0
分享至

谷歌最新发布的Gemini 3模型正标志着人工智能领域的一个关键转折点。

华尔街见闻此前提及,美东时间18日周二,谷歌正式发布备受期待的该司迄今最强大人工智能(AI)模型Gemini 3,并于发布首日立即在谷歌搜索、Gemini应用程序App及多个开发者平台同步上线,在多个盈利产品中投入使用。

谷歌高管在新闻发布会上强调,在衡量人工智能模型性能的几个热门行业排行榜上,Gemini 3处于领先地位。谷歌AI研究实验室DeepMind的CEO Demis Hassabis表示,Gemini 3是"世界上最好的多模态理解模型",也是公司迄今最强大的智能体和代码生成模型。

根据沃顿商学院教授Ethan Mollick的深度测评,Gemini 3的发布及其配套工具“Antigravity”展示了惊人的“代理”能力。与三年前的GPT-3模型相比,AI不再仅仅是生成文本,而是能够编写代码、构建可交互的应用、执行多步骤任务。

Mollick指出,这种从“描述”到“行动”的飞跃,意味着AI正从一个对话伙伴,演变为一个可以接入计算机并完成实际工作的通用工具。

Mollick的结论是,我们正从“聊天机器人时代”迈向“数字同事时代”。Gemini 3虽然并非完美无瑕,但其所犯的错误已不再是无中生有的“幻觉”,而更接近人类在判断或意图理解上的偏差。

这表明,人机协作的模式正在改变,人类所做的将不再是修正AI的低级错误,而是为其提供高阶的战略指引和方向。这或许是自ChatGPT发布以来,AI领域发生的最大变革。

以下为Ethan Mollick测评文章全文:

三年,从 GPT-3 到 Gemini 3
从聊天机器人到智能体
Ethan Mollick
2025 年 11 月 19 日
我一直在测试谷歌新发布的 Gemini 3 模型。它非常出色。但与其罗列基准数字,不如让 AI 亲自演示这三年我们走了多远——我就是这样做的。
ChatGPT 发布至今已近三年。在它上线前几天,我在这份 Substack 上写了第一篇关于 OpenAI 更早期的 GPT-3 的文章。随后 ChatGPT 横空出世,我立刻又写了一篇:“我通常对技术预测很谨慎,但这次它会比我们预期得更快、更剧烈地改变我们的世界。不再只是自动化重复、危险的工作,现在第一批被 AI 颠覆的,可能是更偏分析、创意、写作与沟通的岗位。”
今天看来,我说对了。

(插图:三年前我用 GPT-3.5 后的首篇文章截图)
我可以口头解释初代 ChatGPT 与今天谷歌发布的 Gemini 3 有多大差距,但没必要。我把上面那张截图扔给 Gemini 3,只写了一句话:
我:“做点东西,让大伙儿看看 AI 这三年进步了多少。”
Gemini:“当然可以。你这条推文来自 2022 年 11 月——现代 AI 热潮的前夜。当时最大的‘哇点’是 AI 能写一段通顺的文字,或者给‘糖果动力超光速飞船逃离水獭’这种傻题目写首小诗。
为了展示进步,我不仅用文字描述,而是直接给你做了一个可交互、可游玩的‘糖果动力超光速飞船模拟器’。
2022 年,AI 只能描述引擎;2025 年,AI 能把引擎写出来、把界面画出来,还让你亲自开飞船。”

它真的做了一个迷你游戏:我得靠糖果能量摆脱追杀的水獭,途中穿插小诗和各种搞笑更新。读这篇博客的人大概早知道 AI 能写代码,但更有趣的是——当你不再把 Gemini 3 当成“聊天框”,而当成“别的东西”时,它还能干什么。
会写代码的工具,不只是“写代码的工具”伴随 Gemini 3,谷歌还发布了 Antigravity。程序员一看就懂:它跟 Claude Code、OpenAI Codex 类似,给你电脑权限,能在指导下自主写程序。
如果你不是程序员,可能会忽略它——我觉得这是错的。“会写代码”不等于“当程序员”,而是“能完成任何在电脑上才能完成的活儿”。 于是,这些工具的本质被彻底改写。
Gemini 3 极擅长写代码,这一点即使你不自认“程序员”也与你息息相关。AI 界的一个底层视角是:你在电脑上做的任何事,归根到底都是代码;只要 AI 能写代码,它就能建仪表盘、扒网站、做 PPT、读文件…… 这让“会写代码的智能体”成了通用工具。Antigravity 把这一理念产品化:给我一个“收件箱”,我把任务派给智能体,它们需要批准或帮助时会通知我。

(插图:四个智能体同时跑,一个在干活,一个等我回应)
我跟它们不用代码,用英语;它们用代码替我干活。Gemini 3 擅长做计划,知道该干什么、何时请示。比如我把历年 newsletter 的稿子全放在一个文件夹,然后吩咐:
“给我做一个漂亮的网页,汇总我对 AI 的所有预测,再上网搜搜哪些说对了哪些说错了。”
它读完所有文件、跑代码、先递给我一份可编辑的方案——这是它第一次开口问我,理解之准确让我惊讶。我小改几处,放它去干。

随后它搜网页、建站、接管浏览器验效果,再把成品打包给我。我像对真人同事一样提修改意见,它继续迭代。

它并非完美无缺——智能体还没到那一步。我没发现幻觉,但确有地方需要我纠正,不过那些错误更像“人类同事会有的判断偏差或误解”,而非传统 AI 的离谱幻觉。重要的是,我感觉自己能够掌控人工智能的决策,因为人工智能会定期检查并确认其工作,而且我的操作过程清晰可见。这种感觉更像是管理一位队友,而不是通过聊天界面与人工智能进行沟通。
博士级智力?Antigravity 并非唯一惊喜。另一重震撼在于——它展现了真正的“判断力”。
我常吐槽:AI benchmark 已经卷成一锅粥。Gemini 3 在大多数榜单上领先(也许还打不过 200 美元的 GPT-5 Pro,但等 Gemini 3 的“深度思考”版出来可能就翻盘)。行业爱用一句广告词:“博士级智力”。我决定真刀真枪测一下。
我把十年前众筹研究的一堆旧文件扔给它——文件名像“project_final_seriously_this_time_done.xls”,格式还是上古 STATA。命令只有一句:
“自己摸懂数据结构,把 STATA 文件清理好,准备做新分析。”
它真的把损坏的数据恢复了,把复杂环境摸透了。
接着我给了它一个典型“博士二年级小论文”任务,不加任何提示:
“很好,现在用这些数据写一篇原创论文。深入调研领域,把主题拔高到创业或战略理论的层面,做严谨统计,写成期刊格式。”
它自己选题、提假设、跑统计、出图表、排版成文——最难的“选题与可执行性平衡”它自己走钢丝搞定了。我仅含糊地说“再充实、再改进”,最终拿到 14 页论文。

(插图:论文前两页)
更惊艳的是,它自创了一个指标:用 NLP 把项目描述与海量描述做数学比对,衡量“众筹创意独特性”。代码自己写,结果自己验。

所以,这算“博士级”吗?
如果你指“能干顶尖高校里一个合格研究生的活”,部分答案是“yes”。但它也有研究生通病:统计方法有瑕疵、理论跳跃过大、证据链不够严谨…… 我们已越过“幻觉”阶段,进入更微妙、更“人类”的缺陷区。有趣的是,当我像带学生一样给开放建议(“再多补众筹文献以确立方法”),它提升显著——也许再多引导就能接近“博士”。
Gemini 3 是什么?
它是一个极出色的“思考+执行”伙伴,全球数十亿人可随手调用;也是一面镜子,照出 AI 并未放缓、智能体崛起、人类需学会管理“聪明 AI”等多重趋势。
三年前,我们为“机器能写水獭诗”而惊叹;不到 1000 天后,我在跟一个自建研究环境的智能体辩论统计方法。
聊天机器人时代正在让位于“数字同事”时代。
没错,Gemini 3 仍不完美,需要会指挥、会核查的“人类经理”。但“人在回路”正从“人替 AI 擦屁股”演变为“人指导 AI 干活”——这也许是 ChatGPT 发布以来最大的范式迁移。
彩蛋:
我让 Gemini“纯用代码给我做一张 Substack 封面图,先查尺寸”,它先上网搜规格,再纯靠数学画图,一条龙搞定。

** obligatory 警告:**
让 AI 智能体获得电脑权限有风险——它可能不经询问就移动/删除文件,甚至泄露文档。等工具面向非程序员时会好很多;当下务必谨慎。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
泪目!陈梦3-0带队进决赛:女团对决孙颖莎争冠,上演最后一舞?

泪目!陈梦3-0带队进决赛:女团对决孙颖莎争冠,上演最后一舞?

李喜林篮球绝杀
2025-11-18 22:58:20
字母哥谈自己的追身封盖:我在希腊吃不上饭,没法像这样全力冲刺

字母哥谈自己的追身封盖:我在希腊吃不上饭,没法像这样全力冲刺

懂球帝
2025-11-19 09:33:20
王者归来!湖人首发:詹姆斯、东契奇、里夫斯、八村垒和艾顿

王者归来!湖人首发:詹姆斯、东契奇、里夫斯、八村垒和艾顿

懂球帝
2025-11-19 11:30:15
外交部:中国政府从来没有也不会要求企业非法采集或存储数据

外交部:中国政府从来没有也不会要求企业非法采集或存储数据

每日经济新闻
2025-11-18 10:02:20
电池不变续航升级821公里,Model Y含金量还在提高

电池不变续航升级821公里,Model Y含金量还在提高

邱小铖
2025-11-18 17:43:19
谷歌深夜炸场:Gemini 3正式发布!自ChatGPT发布以来最激动人心的事件

谷歌深夜炸场:Gemini 3正式发布!自ChatGPT发布以来最激动人心的事件

AI寒武纪
2025-11-19 01:42:12
王传福第三张王牌,再造一个比亚迪

王传福第三张王牌,再造一个比亚迪

象视汽车
2025-11-19 07:00:03
封杀四年,49岁赵薇突传消息,因胃癌去世传闻5个月前就真相大白

封杀四年,49岁赵薇突传消息,因胃癌去世传闻5个月前就真相大白

一娱三分地
2025-11-07 15:09:53
谷歌Gemini 3把GPT-5.1打成计量单位!马斯克奥特曼都服了

谷歌Gemini 3把GPT-5.1打成计量单位!马斯克奥特曼都服了

量子位
2025-11-19 09:34:40
请做好充分准备,世界即将变天!

请做好充分准备,世界即将变天!

水木然
2025-11-17 23:56:09
绝不向中国低头!宁愿裁员9000人公司破产,也不接受中国的帮助?

绝不向中国低头!宁愿裁员9000人公司破产,也不接受中国的帮助?

蜉蝣说
2025-10-22 11:38:49
黄某在国外被间谍策反,春节期间以拜年为借口,向在党政机关、国防军工单位工作的同学套取内部敏感材料,后被举报,细节披露

黄某在国外被间谍策反,春节期间以拜年为借口,向在党政机关、国防军工单位工作的同学套取内部敏感材料,后被举报,细节披露

极目新闻
2025-11-19 07:58:59
场均33分!太阳8换1交易赚了!他还说詹姆斯不重要

场均33分!太阳8换1交易赚了!他还说詹姆斯不重要

德译洋洋
2025-11-19 13:16:56
里子面子都丢了?官媒锐评俞敏洪小作文,言辞犀利,句句直戳心窝

里子面子都丢了?官媒锐评俞敏洪小作文,言辞犀利,句句直戳心窝

禾寒叙
2025-11-18 22:29:15
这菜再贵也要吃,现正大量上市,通便排毒、杀菌消炎,别不懂吃!

这菜再贵也要吃,现正大量上市,通便排毒、杀菌消炎,别不懂吃!

阿龙美食记
2025-11-17 13:59:43
收橙子被骗后续!商家只能认赔,代办拿入乡随俗挡箭,云南上热搜

收橙子被骗后续!商家只能认赔,代办拿入乡随俗挡箭,云南上热搜

奇思妙想草叶君
2025-11-18 23:20:33
全美直播!开拓者迎战太阳,全队5人伤停,杨瀚森被召回有望登场

全美直播!开拓者迎战太阳,全队5人伤停,杨瀚森被召回有望登场

球盲姐
2025-11-19 09:18:29
一个骗子为什么能在高校当两年多时间的首席科学家、教授、博导?

一个骗子为什么能在高校当两年多时间的首席科学家、教授、博导?

卢江良l卢钢粮
2025-11-18 22:45:40
A股:超4200股惨绿,股民开始躺平休息,市场正式进入鸡肋阶段

A股:超4200股惨绿,股民开始躺平休息,市场正式进入鸡肋阶段

云鹏叙事
2025-11-19 10:42:26
博阿滕谈去世前女友:我失去了挚爱,至今仍在消化这个事实

博阿滕谈去世前女友:我失去了挚爱,至今仍在消化这个事实

懂球帝
2025-11-19 01:37:33
2025-11-19 13:40:49
华尔街见闻官方 incentive-icons
华尔街见闻官方
中国领先的金融商业信息提供商
137743文章数 2651504关注度
往期回顾 全部

科技要闻

一夜封神,Gemini 3让谷歌找回“碾压感”

头条要闻

小伙花20万娶到"下嫁"新娘 发现"厅官"岳父是短剧演员

头条要闻

小伙花20万娶到"下嫁"新娘 发现"厅官"岳父是短剧演员

体育要闻

世界杯最小参赛国诞生!15万人岛国的奇迹

娱乐要闻

又反转!曝喻恩泰出轨美女律师

财经要闻

黄金税改两周,水贝低价神话终结?

汽车要闻

脱胎换骨的优秀底盘Get 新款享界S9动态驾驶体验

态度原创

房产
手机
亲子
本地
公开课

房产要闻

29.4亿!海南“地王”片区,要卖超级宅地!

手机要闻

iPhone 17系列首发自研N1芯片:Wi-Fi速度超越上代iPhone 16

亲子要闻

太可爱啦,萌娃完美演绎又困又饿……娃:刚才我好像梦见嗦粉了

本地新闻

这档古早综艺,怎么就成了年轻人的哆啦A梦?

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版