网易首页 > 网易号 > 正文 申请入驻

告别“AI味”!Gemini 3初体验:不废话、不讨好,但这价格让我手抖

0
分享至

来源:市场资讯

(来源:网易科技报道)

谷歌Gemini 3终于在凌晨正式揭幕。

在背负了整整一年“起大早赶晚集”的质疑后,周二,谷歌正式发布了其年度重磅模型Gemini 3。与以往小修小补式的迭代不同,这次更新被视作谷歌对OpenAI和Anthropic最猛烈的一次反击。据知情人士透露,Gemini 3的发布甚至在OpenAI和Anthropic内部引发了不小的“焦虑”,竞争对手的员工们私下推测,如果谷歌在自动编程和图像生成上实现超越,他们的先发优势可能将荡然无存。


投资机构JonesTrading首席市场策略师米克·奥罗克(Mike O’Rourke)一针见血地指出:“凭借谷歌在搜索领域的庞大体量和先发优势,它极有可能夺回市场份额,迫使OpenAI及其背后的微软陷入被动。”

当谷歌将Gemini 3直接植入拥有数十亿用户的搜索框时,这种分发能力具有毁灭性的打击力。反观OpenAI,虽然目前仍是流量霸主,但面对甲骨文和微软开出的高昂算力账单,其商业模式的容错空间远低于谷歌。

1. 硬核亮点:不只更聪明,还能“生成界面”(Generative UI)

Gemini 3的核心技术亮点大致可以归结为一点:试图打破文本对话框的限制。

——生成式UI (Generative UI): 这是本次更新最大的亮点。以前你问AI旅游攻略,它只给你文字;现在Gemini 3能直接生成一个交互式界面。当你查询某个历史或艺术问题时,它能混合图形和文本,甚至实时构建微型应用程序。这不仅是回答问题,更是在“生成体验”。

——Antigravity编程工具: 这是谷歌面向开发者领域投放的一枚重磅炸弹。这个“智能体优先”的编码环境,能让AI自动完成软件编写、测试和部署。

——告别“马屁精”:谷歌特意强调,Gemini 3减少了“阿谀奉承(sycophancy)”。现在的原则是“告诉你真相,而不是你想听到的话。”这意味着Gemini 3在面对错误前提时,会有更强的批判性思维,而不是一味迎合用户。

——准确率和智能度提升: 谷歌称Gemini 3是其最智能的模型,能帮助用户将任何想法变成现实。在标准基准测试中,Gemini 3的信息准确率达到了72%。虽然数字在绝对值上看似不高,但在生成式AI领域无疑稳居前列。

2. 大V亲测:Gemini三年练成“博士级”智能

沃顿商学院教授、AI领域意见领袖伊桑·莫利克(Ethan Mollick)刚刚对Gemini 3进行了一番深度测评。

这一次,他没有堆砌枯燥的基准测试分数,而是用一个跨越三年的对比测试,展示了AI令人咋舌的进化速度:那个曾经只会陪你聊天的AI,现在已经变成了能独立干活的“数字同事”。

——从“描述”到“创造”

三年前ChatGPT发布前夕,莫利克曾向早期GPT-3输入一个荒诞的提示词:“写一个关于糖果驱动的超光速飞船逃离水獭的故事”。那时候,AI只能勉强写出一段连贯文字或一首蹩脚诗。

今天,面对同样的提示词,莫利克对Gemini 3提出了更高的要求:“用实际行动展示AI进步了多少。”

结果,Gemini 3直接编写并生成了一个可交互、可试玩的网页游戏。在游戏里,你需要真正驾驶那艘糖果飞船去躲避水獭的追击。


莫利克感叹:“2022年的AI只能描述;2025年,AI已经可以编写引擎代码、设计界面,并让你亲自驾驶飞船。”

——全能助手Antigravity

随Gemini 3一同发布的还有开发工具Antigravity。很多人以为这只是给程序员用的,但在莫利克看来,这更像是一个通用的“智能体工作台”。

他的核心理念在于:在计算机上做的任何事情,本质上都是代码。既然AI能搞定代码,它就能搞定一切——无论是处理Excel、制作PPT,还是分析本地文件。


莫利克把电脑里存放过往所有文章的文件夹权限都交给了Antigravity,并下达指令:“帮我把所有关于AI的预测整理成一个漂亮页面,并上网搜索验证哪些我说对了,哪些说错了。”

Gemini 3的表现像极了一位靠谱的员工:

它读取文件,制定计划; 还会在计划生成后的关键节点停下来,等待莫利克的批准; 获得批准后,它自主上网搜索、编写代码、生成网页、甚至控制浏览器进行测试。


莫利克发现,自己与AI的交互方式发生了本质变化:不再是用复杂提示词去“引导”对话,而是用自然语言去“指挥”队友干活。这种可控感和理解力是迈向智能体时代的关键一步。

——写出“博士级”论文

为了测试Gemini 3的智能极限,莫利克还祭出了终极考验:一套十年前的、格式混乱的、甚至包含损坏数据的旧科研文件。

他给出的指令非常模糊,类似于导师对博士生的要求:“理清这些数据结构”、“写一篇原创论文,要有深度的理论探讨,像给学术期刊投稿那样写”。

结果Gemini 3不仅修复了数据,还提出了原创的研究假设,甚至自己编写了一套自然语言处理(NLP)算法来衡量众筹项目的“独特性”指标,并完成了统计分析。最终,它交出了一篇14页的论文。


当然Gemini 3也有不完美的地方。就像一个刚读博的学生一样,它的某些统计方法需要修正,某些理论推导略显激进。但在莫利克给出修改意见后,它能迅速领会意思并大幅改进。

莫利克总结道:“如果我们将‘博士级智力’定义为能像合格研究生那样干活,那么它的确是做到了。”

3. 风评炸锅:Gemini 3“真香”?

——数据派:智商爆表,但是“昂贵话痨”

权威评测机构Artificial Analysis给出的结论喜忧参半,但总体偏向乐观:

· 智力超群: 在智能指数(Intelligence Index)测试中,Gemini 3 Pro Preview拿下73分的高分,而同类模型的平均分仅为42分。这不仅仅是领先,更是断层式的碾压。

· 极速响应: 128 tokens/秒的生成速度,让Gemini 3在处理复杂任务时依然“健步如飞”,远超行业平均水平(56 tokens/秒)。

· 钱包预警: 强大的代价是昂贵。虽然输入价格适中,但输出价格高达12美元/1M tokens(平均水平为8.40美元)。而且,这还是个“话痨”模型:测试中它生成了92M tokens,是平均水平(27M)的三倍多。

一句话总结:Gemini 3聪明、反应快,但废话略多,且每一个字都很贵。

@aniruddhadak则表示“基准测试结果”令人惊叹......“堪称智能体编码工作流的新基石。”


@deredleritt3r也拿数据说话,认为Gemini 3在计算机操作方面更是形成了绝对碾压之势:“这是全能电脑特工要出炉的节奏”。


——体验派:没有AI味,碾压优势

随着Gemini 3和Antigravity的访问权限陆续开放,一众科技博主纷纷上手亲测并发表评论。

作为早期测试者的@aditabrm详细评估了Gemini 3的强项和局限,称其“令人印象深刻”,并在发布当天分享了自己的详细测评。


行业观察家@aagarwal1012则认为,谷歌Gemini 3大幅拉高了同类产品的标准。


科技播客@SciTechera更是用一幅图凸显谷歌Gemini 3上线后相比于其他竞争对手的绝对优势。


对于每天都要和AI打交道的硬核玩家@Matt Shumer来说,Gemini 3直接成了他的“日常主力工具”(Daily Driver)。他发表的评测更为感性且聚焦于生产力:

· 写作进化: 创意写作终于“像人”了,告别了那种一眼假的“AI味”。Gemini 3的行文逻辑连贯,节奏自然,性格也变得干练直接,不再有那些为了凑字数的客套开场白。

· 前端杀手: 这是最大的惊喜。@Matt Shumer直言其前端能力“极其出色”,设计细节、微交互、响应式布局,往往一次就能搞定。设计能力的跨度实现了巨大飞跃。


——冷静派:也并不是所有用户都买账。

回到产品本身,谷歌自豪地宣称Gemini 3的信息准确率达到了72%。对于大模型来说,这是一个了不起的数字。但在部分用户眼中,这可能还不够。

初创公司Oumi联合创始人Manos Koukoumidis直言不讳:“如果人们指望谷歌把他们从‘蓝色链接’的海洋中拯救出来,并替他们完成工作,目前的水平还远远不够。”

与搜索引擎深度整合后,Gemini 3能检索信息、验证事实,但“幻觉”依然存在。用户期待的是100%的可靠性,而72%意味着仍有近三成的概率会“一本正经地胡说八道”。

Gemini 3正式上线后不久,就有用户在社交平台X发文泼了一盆冷水,说虽然它会像“资深工程师一样声称自己‘搞定’了,但用户还是要检查”,与其他模型一样存在易出错、半途而废的问题。


还有用户在体验Gemini 3预览版时认为有时还不如2.5 Pro,比如对比二者生成“鹈鹕骑自行车”的图片,前者并没有明显优势。

@Matt Shumer也提到了Antigravity的两面性:谷歌新推出的IDE虽然强大,但仍需人类进行“保姆级”看护,以捕捉模型遗漏的错误。


4. 战局观察:OpenAI罕见沉默,友商紧急“抱团”

评价一个模型的强弱,别看它说什么,要看它的对手在做什么。

硅谷观察家约翰·库根(John Coogan) 用这样一个更有趣的视角来解读Gemini 3。

——Anthropic在找靠山。就在谷歌放大招的同时,Anthropic迅速靠拢微软,达成300亿美元的算力合作,并拿到了英伟达和微软的巨额投资。这种“抱团取暖”的防御姿态,恰恰印证了谷歌带来的压迫感。

——OpenAI异常安静。以前最喜欢在谷歌发布会前搞“截胡”的OpenAI,这次却显得格外沉默,仅发布了一些群聊功能和广告业务相关的动作。公司CEO萨姆·奥特曼(Sam Altman)倒是不忘在X平台上对谷歌表示祝贺。谷歌CEO桑德尔·皮查伊(Sundar Pichai)也作出回应。


——xAI的焦虑。马斯克麾下的xAI则选择了简单粗暴的“硬刚”,发布会前后在X平台上疯狂投放Grok的广告,让人不免猜测是否在试图抢夺谷歌的关注度。

5. 结语:技术狂欢背后仍需冷静

根据麦肯锡的数据,到2030年,整个AI行业预计将花费近7万亿美元来建设数据中心和超级计算机。

这是一个天文数字。

对于Gemini 3的发布,研究机构Creative Strategies首席分析师本·巴贾林(Ben Bajarin)颇为冷静:“我们需要真正有能力、高质量的用例,才能看到收入产生实质性流转。但我们现在还没到那一步。”

目前AI主要还是用于传统的搜索查询和辅助编程。投资人开始质疑:Anthropic、OpenAI甚至谷歌,真的能产生足够的销售额来覆盖这万亿美元级别的基建投入吗?

对此,谷歌DeepMind CEO戴密斯·哈萨比斯(Demis Hassabis)显得颇为淡定。他在Gemini 3上线前接受采访时表示,虽然私募市场可能存在泡沫,但谷歌拥有真正的收入引擎。公司云业务季度销售额增长三分之一,达到150亿美元。他形容谷歌的状态是“全情投入(Locked in)”,并对最终胜出充满信心。(辰辰)

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
我国古代4大旷世文章,一生必背的4篇千古奇文,谁能够排在第一?

我国古代4大旷世文章,一生必背的4篇千古奇文,谁能够排在第一?

掠影后有感
2025-11-18 11:14:38
大批中国人依然去日本旅游,日媒追问时,他们的回答太扎心了

大批中国人依然去日本旅游,日媒追问时,他们的回答太扎心了

寒士之言本尊
2025-11-18 23:53:07
施一公:这是中国潜伏的最大危机!(发人深省)

施一公:这是中国潜伏的最大危机!(发人深省)

霹雳炮
2025-11-18 20:38:34
日本炒作“击沉福建舰”,军事专家傅前哨:哪里来的底气?

日本炒作“击沉福建舰”,军事专家傅前哨:哪里来的底气?

南方都市报
2025-11-19 20:18:06
日本入常失败,被中方三个字判了死刑,日本代表甚至不敢正面反驳

日本入常失败,被中方三个字判了死刑,日本代表甚至不敢正面反驳

时时有聊
2025-11-19 20:53:11
中方3项反制直击要害,面对2.2万亿损失,日本政府终于坐不住了

中方3项反制直击要害,面对2.2万亿损失,日本政府终于坐不住了

博览历史
2025-11-18 23:23:34
谢谢陈思诚,贡献出25年年底内娱最大的笑话!

谢谢陈思诚,贡献出25年年底内娱最大的笑话!

娱乐圈笔娱君
2025-11-18 18:12:15
郑丽文又有大动作,当着日媒的面、直接说出心里话,绿营瞬间炸锅

郑丽文又有大动作,当着日媒的面、直接说出心里话,绿营瞬间炸锅

博览历史
2025-11-18 23:26:16
中方暂停进口日本水产品 外交部:即使日本水产品向中国出口也不会有市场

中方暂停进口日本水产品 外交部:即使日本水产品向中国出口也不会有市场

每日经济新闻
2025-11-19 17:41:46
汪峰没想到,女友森林北一张体检结果,让53岁的他里子面子都没了

汪峰没想到,女友森林北一张体检结果,让53岁的他里子面子都没了

冷紫葉
2025-11-18 22:35:54
预算1.76亿的办公楼“未批先建”,市民质疑应罚10%,为啥只罚50万?律师说法

预算1.76亿的办公楼“未批先建”,市民质疑应罚10%,为啥只罚50万?律师说法

大风新闻
2025-11-19 16:31:04
雷士照明创始人吴长江:一晚输5亿,赌掉300亿公司,送自己进大牢

雷士照明创始人吴长江:一晚输5亿,赌掉300亿公司,送自己进大牢

霹雳炮
2025-11-17 23:20:46
特斯拉起诉30多家中国公司!

特斯拉起诉30多家中国公司!

鞭牛士
2025-11-19 21:15:57
因身材太好被骂擦边,击剑冠军秦雪回应:我有女儿要养,不偷不抢

因身材太好被骂擦边,击剑冠军秦雪回应:我有女儿要养,不偷不抢

没有偏旁的常庆
2025-11-10 12:35:03
“国际模特大赛”15号模特获广东冠军引争议,组委会回应:负责人生病无法接受采访,后续会给大家交代;有评委称“连评分表都没看到”

“国际模特大赛”15号模特获广东冠军引争议,组委会回应:负责人生病无法接受采访,后续会给大家交代;有评委称“连评分表都没看到”

极目新闻
2025-11-19 11:31:22
广东模特大赛冠军诞生后,我笑死在评论区

广东模特大赛冠军诞生后,我笑死在评论区

清书先生
2025-11-19 16:02:32
10战9败,球队老大摆烂,球队基石又选错人!你们还是趁早重建吧

10战9败,球队老大摆烂,球队基石又选错人!你们还是趁早重建吧

老梁体育漫谈
2025-11-20 00:30:12
为什么越南女子劫法场,却让全世界刮目相看?

为什么越南女子劫法场,却让全世界刮目相看?

历史总在押韵
2025-11-20 00:17:37
孙颖莎独得2分难救主,山东时隔12年再度加冕,陈梦夺全运会第2金

孙颖莎独得2分难救主,山东时隔12年再度加冕,陈梦夺全运会第2金

钉钉陌上花开
2025-11-19 21:26:07
今夜,跳水!不平静!

今夜,跳水!不平静!

中国基金报
2025-11-20 00:27:57
2025-11-20 01:23:00
新浪财经 incentive-icons
新浪财经
新浪财经是一家创建于1999年8月的财经平台
1434835文章数 4573关注度
往期回顾 全部

数码要闻

消息称三星正开发两款智能眼镜,预计2026、2027年推出

头条要闻

日方要求解释为何未告知磋商后会有媒体拍摄 中方回应

头条要闻

日方要求解释为何未告知磋商后会有媒体拍摄 中方回应

体育要闻

世界杯最小参赛国诞生!15万人岛国的奇迹

娱乐要闻

史林子出轨对方前妻放锤!

财经要闻

重磅!中金公司拟收购东兴与信达证券

科技要闻

一夜封神,Gemini 3让谷歌找回“碾压感”

汽车要闻

此刻价格不重要 第5代帝豪本身就是价值

态度原创

时尚
家居
亲子
游戏
艺术

辛芷蕾的炸裂10分钟,让人大受震撼

家居要闻

水岸美学 书香人文生活

亲子要闻

3岁女娃坑爹日常,吸粉超500w:东北人的家庭氛围,究竟有多搞笑?

我的小众XP,在“玩法正确”面前一无是处?

艺术要闻

惊呆了!外国画家如何颠覆水浒108将的形象?

无障碍浏览 进入关怀版