网易首页 > 网易号 > 正文 申请入驻

极限测试豆包视频通话,聊了一天一夜后我发现事情并不简单

0
分享至

最近有两件事,让我对 AI 的价值有了不一样的看法。

一件事是前段时间西安一名男子去世后,女儿收拾遗物,在父亲的手机里发现了他在生前和 AI 的对话。「我要去世了,豆包」,是父亲和聊天机器人豆包发出的最后一条信息。

最近,我在抖音等社交媒体看到流行一种新的 AI 玩法,用户让豆包模仿自己的声音给朋友打电话,让 AI 代替对话,AI 不时的机械回复和答非所问,和没反应过来的朋友,拉满了节目效果。

这俩事都有一些共同点:没有感情的 AI ,开始成为越来越多人的情绪价值来源,将它当作可以信赖的生活搭子。

但是你也会发现过程中这些 AI 提供的情绪价值和人还是有差距,它能听懂你的话,看懂一张图,但你要它真的理解后做些什么,往往就露馅了。

因为以前在和 AI 语音聊天时,它还不具备视觉能力。

视觉不仅是人类理解世界的窗户,对 AI 更是如此,在拥有这个能力后,才能真的像人一样和我们交流。

现在,豆包终于补上了这块拼图,正式上线了视频通话功能,能让它「边看边聊」,打开豆包 app 对话框的 + 号,选择「打电话」,点击右侧「视频通话」就能体验。

APPSO 也第一时间对豆包进行了一系列极限测试,通过大量的实测案例,来看看有了「双眼」的豆包,到底有什么不一样。

极限实测豆包视频通话,我发现事情并不简单

昨晚,雷军正式发布了小米 YU7。在我们办公园区,保时捷和小米的车停在一起有时候远看还真容易弄混。今天我就在路上偶遇一辆,给豆包「打电话」直接和他聊。

豆包从外观和轮毂样式认出这是小米 SU7。

我们接着上点难度,最近明明是五月的广州,居然像北京一样有大量飘絮,任谁见了都要问一句「到底是什么东西?」

植物识别是很常见,但豆包并不是单纯地鉴别,而是能补充场外信息,就显得非常有活人味。

再来看看这个红色的大型设施,在生活中并不常见,我边逛边给豆包「打电话」,它很快识别出这个物体是「铸造抛丸除尘器」,还介绍了具体用途。

咱也不知道它是不是在瞎掰,直到我在旁边找到了介绍的牌子,发现居然完全正确。

更令我意外的是,豆包还猜到了我在一个创意园里,告诉我这里过去是一个纺织园区。

视频通话理解单个物品或许还是太简单了,我让豆包跟我聊聊我收藏的手办。

它依次识别出这些手办角色,甚至认出了不是常规形态的漩涡鸣人。

其中我跟它聊到科比的比赛,当我提到科比生涯最后一场比赛后,有一句话令人难忘但忘了是什么,豆包几乎脱口而出:

Mamba out !

而且语调也随之提高,显得更加兴奋,让我真有和一个知音聊天的感觉。

好了,既然这也难不到豆包,我就要上大招了。

看到同事日渐凌乱的桌面(不是),心想这是什么体质,东西越堆越多——来问问豆包这是什么 MBTI 好了。

这个测试难度在于,它需要先识别出桌面上的各种随意摆放的物品,然后还得懂「人性」才能分析出来。

神奇的是,豆包对 MBTI,是按照拼音的发音,而不是英文的发音,一开始还没有反应过来,以为是网络卡顿。不过,准还是很准的,同事就是一个大 E 人、大 P人。

除了心血来潮的速问,包含更多「隐藏信息」的场景,也是最能显示实时通话能力的地方。

比如买咖啡豆,尤其是在咖啡馆时尝到不错的出品,但没法像逛电商时那样慢慢研究,而是需要在短时间内做决定。然后脑子还不好使,永远记不住产地、海拔到底会对风味有什么影响。

这下不用靠脑子记了,只需要点开豆包,打开摄像头。

大大利好 i 人,去咖啡店再也不用跟店员交流,打开手机就可以弄懂所有术语。

你说怕独自对着商品念叨很古怪?低声些,假装在跟朋友语音就不会被发现了!

除了识别与理解推理能力,我们还发现了在视频通话中豆包还有着不错的创作能力。

我让它根据语文课本上一个插画,写一首 rap。

在没有任何提示的情况下,豆包迅速辨认出画面讲述的是「岳母刺字」的故事,并准确描绘了其中的场景。但真正让我感到惊喜的,是它随即生成的一首 rap。

你别说,听着还真有点文化底蕴,节奏感与意境拿捏得都挺妙。

我旅游时随手看到远处湖上的一座桥,想即兴写首诗,给我的朋友圈一点特别的文案

注意,我没告诉它我在西湖,而且这里的桥不少,造型各异、历史各有来头。

但豆包依然在人流如织的景区背景中轻松锁定西湖「断桥」后,还用一首七言绝句讲述这里的故事。

《西湖游》 断桥望处翠湖连,荷叶田田映碧天。 游客如织桥上过,湖光山色韵绵延。

朋友圈还缺一张好看的图,与其抱怨闺蜜或男朋友拍不出满意的照片,不如试一试用豆包生成实时pose tips。

跟豆包通话后,它就开始观察周围的环境,并根据环境中的要素实时反馈摄影师如何构图效果更好、模特可以摆哪些动作等。

在上面这个场景里,豆包根据广州塔以及绿植、石板路、路灯等现场环境,建议我利用景深关系、低视角、傍晚路灯暖光拍摄,可以说兼顾了实际拍摄条件和出图氛围感。

并且,豆包给出的拍照姿势指导话术也比较具体。「侧身」、「背对镜头」、「站在路中间」等说法一听就明白应该怎么做,而不是单薄的一句「多换几个姿势吧」。

等豆包接电话后,点击界面左上角的「共享屏幕」选项,你还可以和豆包一起刷视频、逛网上商城、浏览帖子。

爱范儿试着边播放抖音视频,边和豆包聊天,然后惊喜地发现她不仅能即时描述和评论画面内容,还会主动抛出基于视频主题及其相关内容的聊天话题,交互体验更人性化了。

如果碰巧你分享欲爆棚,说不定能和豆包聊个「3 天 3 夜」。

或许能治好你的选择困难症。这很大程度上,得益于其背后的视觉理解模型会「看」也会「思考」。

纠结下班后和老友聚餐吃什么?使唤豆包找出附近500米内的多家同类餐厅,解放双手也能了解到这些店的招牌菜、店铺风评等信息。

豆包甚至还能化身首席点菜官,治好你的选择困难症,还能根据忌口安排妥当。

而一句「30岁左右适用,香味中性风」,豆包便能直接定位店铺页面的某款香水产品,并化身专属客服,为你详细介绍这款香水的前、中、后调等复杂成分信息。

如果中途对香水成分中的过敏原有疑问,你随时打断豆包提问就行。

给 AI 装上「眼睛」,不只能做好生活搭子

前段时间和阶跃星辰 CEO 姜大昕交流,他认为多模态还没出现 GPT-4 时刻,其中,理解生成一体化是计算机视觉领域的核心问题

豆包刚上线的视频通话功能,算是把「理解生成一体化」这个有点复杂的概念玩明白了。别看这词玄乎,说白了就是要让 AI 不光能「看懂」你给它瞅的东西,还得能根据看懂的玩意儿,聊出个所以然来。

这就要求这两件事儿得是一码事,可现在往往不是。

你让 AI 认个小猫小狗,或者识别个场景,这算「理解」,可能用的是模型 A;然后你要让 AI 照猫画个虎,或者根据你的意思 P个图,这算「生成」,又得用模型 B。

这就像公司里两个部门无法顺畅沟通,有大量信息差,那模型就很难真正「懂」你,生成的东西也可能不着边际。

给 AI 加上视觉理解能力,就是要将不同部门整合成一个紧密协作的团队。它看到啥,脑子里就能立马明白是啥意思,并且还能直接把这个理解转化成行动或者回应。

看前面豆包视频通话的表现,就有点这个意思了。

比方说,你正在厨房里琢磨一道新菜,对着食谱有点懵圈,不知道某个步骤具体怎么操作,或者手头缺个调料,想知道能不能用别的替代。

这时候,你直接把食谱或者你手里的食材通过视频给豆包看。

这时,豆包的「眼睛」(视觉理解模型)得先「看懂」你给它看的是啥。

它得识别出食谱上的文字、图片,知道你说的是哪个步骤;或者认出你手里的那个是酱油还是醋,是葱还是蒜。它不是简单地认出这是「一瓶液体」或者「一根蔬菜」,它得联系上下文,知道你是在做菜这个场景下问问题。

在「看懂」的基础上,豆包才能聊出有用的信息。

它会跟你说:「哦,这个步骤是让你把肉腌一下,我看你手边有料酒和生抽,可以按食谱上的比例来。」或者:「你想用A调料替代B调料是吧?我帮你查查,嗯,理论上可以,但味道可能会有点不一样,建议你少放一点试试。」

在这个过程中,「理解」和「生成」是无缝衔接的。豆包是在一个更统一的框架里,边看边理解,边理解边思考怎么回应你,这才能实现真正的「边看边聊」。

所以说,豆包的视频通话,就是想让 AI 的「眼睛」和「嘴巴」能更好地协同工作。它看到的图像信息,能直接驱动它生成有意义的对话内容。

当 AI 能像人一样,看到什么,想到什么,然后自然而然地表达出来,它已经能成为一个不错的「生活搭子」,在提供一些情绪和陪伴之外,还能帮你解决一些实际的问题。

但这事儿的意义可能不止如此, AI 在这个方向进化下去,不再是一个只能被动回答问题的工具,而是成为一个能够主动观察、深度理解并与我们流畅协作的智能伙伴。

可以说,这是 AI 朝着 AGI (通用人工智能),真正融入我们生活与工作的必经之路。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
先被里瓦尔多全面逆袭,后遭齐达内强势碾压,全能战士时运不济

先被里瓦尔多全面逆袭,后遭齐达内强势碾压,全能战士时运不济

足篮大世界
2026-03-26 10:52:09
每吃一次,大脑萎缩就快一步?劝告:这4物是老年痴呆催化剂

每吃一次,大脑萎缩就快一步?劝告:这4物是老年痴呆催化剂

坠入二次元的海洋
2026-03-26 18:16:38
越南急着修高铁中国就是不出手,无奈只能去找新的冤大头

越南急着修高铁中国就是不出手,无奈只能去找新的冤大头

照亮你的前行之路
2026-03-26 14:20:40
柯文哲案一审宣判牵动台政坛

柯文哲案一审宣判牵动台政坛

环球时报国际
2026-03-26 14:09:09
“针织衫+裤子+半裙”火出圈,怎么搭配都时髦,美炸了!

“针织衫+裤子+半裙”火出圈,怎么搭配都时髦,美炸了!

何有强
2026-03-25 21:07:39
伊朗愿意与“主和派”万斯谈!特朗普一边宣称胜利一边增兵中东:我和鲁比奥也要参与

伊朗愿意与“主和派”万斯谈!特朗普一边宣称胜利一边增兵中东:我和鲁比奥也要参与

红星新闻
2026-03-25 17:17:14
比亚迪推出革命性可变磁通电机,彻底解决电动车高速掉电难题

比亚迪推出革命性可变磁通电机,彻底解决电动车高速掉电难题

娱乐圈的笔娱君
2026-03-26 17:21:17
他把黄渤捧红,自己却两次坐牢,出狱后黄渤的做法让人佩服

他把黄渤捧红,自己却两次坐牢,出狱后黄渤的做法让人佩服

无处遁形
2026-03-18 04:37:04
语出惊人!摩根大通CEO戴蒙称,伊朗战争长期来看是好事!为什么这样说?

语出惊人!摩根大通CEO戴蒙称,伊朗战争长期来看是好事!为什么这样说?

王爷说图表
2026-03-25 18:51:12
48小时倒计时!以色列突然对伊朗疯狂输出,这是被逼到墙角吗?

48小时倒计时!以色列突然对伊朗疯狂输出,这是被逼到墙角吗?

浯江孤舟
2026-03-26 20:35:32
凯特戴6000块的帽子险出洋相!助手说漏嘴,意外爆出威廉的瓜?

凯特戴6000块的帽子险出洋相!助手说漏嘴,意外爆出威廉的瓜?

白露文娱志
2026-03-26 16:41:18
上海警方发布警情通报:左某某已被警方依法刑事拘留

上海警方发布警情通报:左某某已被警方依法刑事拘留

新京报
2026-03-25 20:46:14
怀孕传闻真相大白后,翁帆突传“喜讯”,杨振宁终于可以放心了!

怀孕传闻真相大白后,翁帆突传“喜讯”,杨振宁终于可以放心了!

丁丁鲤史纪
2026-03-25 16:35:13
周杰伦新专辑《太阳之子》狂卖8000万:AI无法替代的1%

周杰伦新专辑《太阳之子》狂卖8000万:AI无法替代的1%

娱乐独角兽
2026-03-25 22:11:07
战场奇迹!1台乌军机器人死守阵地45天硬刚俄军冲杀和机枪扫射

战场奇迹!1台乌军机器人死守阵地45天硬刚俄军冲杀和机枪扫射

子桑说
2026-03-25 17:27:05
你见过哪些闷声发大财的人?网友:干这个买三套房子,两个门面

你见过哪些闷声发大财的人?网友:干这个买三套房子,两个门面

夜深爱杂谈
2026-02-01 18:57:04
刚刚发布!2026年QS世界大学学科排名:北大榜首,浙大第二,清华复旦并列第三

刚刚发布!2026年QS世界大学学科排名:北大榜首,浙大第二,清华复旦并列第三

TOP大学来了
2026-03-26 00:06:23
巴基斯坦把稀土卖给美国,以为捏住中国“七寸”,其实在玩火自焚

巴基斯坦把稀土卖给美国,以为捏住中国“七寸”,其实在玩火自焚

通文知史
2026-03-24 08:35:03
沙特实战封神!中国“天盾”21发全中,15亿美制系统竟惨遭反杀

沙特实战封神!中国“天盾”21发全中,15亿美制系统竟惨遭反杀

素衣读史
2026-03-25 21:26:46
73岁港姐为李小龙哥哥扫墓,墓前铺满白花,离婚逾30年仍每年拜祭

73岁港姐为李小龙哥哥扫墓,墓前铺满白花,离婚逾30年仍每年拜祭

八斗小先生
2026-03-26 15:02:47
2026-03-26 23:03:00
爱范儿 incentive-icons
爱范儿
消费科技第一媒体
38614文章数 2601339关注度
往期回顾 全部

科技要闻

美团发布外卖大战后成绩单:亏损超200亿

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

游戏
艺术
教育
旅游
公开课

50万销量达成!这款IGN 9分独游走红 官方发推庆贺

艺术要闻

哪一座桥不是风景?

教育要闻

骂人没有杀伤力?那不是白忙活吗?

旅游要闻

探访资中文旅新地标 邂逅千年古城的诗与远方

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版