网易首页 > 网易号 > 正文 申请入驻

豆包为什么要给 AI 助手「开眼」?

0
分享至


当 AI 同时拥有了耳朵和眼睛,在未来硬件创新的支持下,还将解放更大的创新潜力。


作者|Jesse

编辑|郑玄

豆包,可以视频通话了。

自年初更新「实时语音通话」功能之后,这一功能就持续受到用户欢迎。现在在社交媒体上搜索豆包,排名前十的热门关键词中,有 6 个与「打电话」功能有关。大量和豆包通话相关的创意内容也受到了观众追捧。

随着视频能力上线,豆包的通话功能迎来了一次「升维」,变得更实用、好用。结合视频图像,很多即便模糊的语音输入,也能够更好地被 AI 理解,用户不需要再组织语言去描述眼前的信息。

视频通话是一个单点功能,但在这背后是语言能力、多模态能力、推理能力、知识库等等多个垂直领域的技术积累、整合,以及对成本和效率的平衡。

更重要的是,视频通话能力预示了 AI 助手更远的前景。当 AI 同时拥有了眼睛和耳朵,在未来更多硬件创新的支持下,还将解放更大的创新潜力。

01

帮你理解眼前一切的豆包

视频通话能力给豆包带来的,首先是多模态理解的能力提升和交互优化。

从最基础的「理解」场景开始,用户可以把手机摄像头对准任何信息,如信息版、菜单,让豆包给出翻译、解释。而且过程中,用户可以不断通过语言输入,来修正豆包的关注重点。

比如在一个博物馆里,当我们开启视频通话,问豆包这是什么,豆包首先会根据画面里的地标特征,识别出这是「新加坡国家美术馆」。然后我们如果继续追问,楼上挂着的横幅是什么意思,豆包又会给出具体展览信息的翻译和解释。

而在看展览的过程中,我们也可以举着手机,随时针对任何一幅作品向豆包发问。从基本的翻译作品信息,到问它作品风格具体属于哪一个派别,是否有模仿哪个艺术家的痕迹,豆包都能给出精准判断。

基于豆包给出的信息,我们也能进一步挖掘一些更深的隐藏关联。比如在新加坡国家美术馆里有一个法院拘留室的展示区域,问过豆包之后我发现,这里的关系在于,新加坡国家美术馆由原政府大厦和原最高法院大楼改建而成。前法院的拘留室曾用于关押候审的被告,在美术馆改建后,部分拘留室被保留了下来,成为了美术馆的一部分,供公众参观,让人们可以了解新加坡的司法历史。

除此之外,我们还可以和豆包讲讲自己对美术作品的一些理解和看法,进行观点碰撞。实际上,豆包已经具备一定的「纠错」能力,不是只会一味地顺从用户的理解。比如这里,当我引用了错误的类比,说这个作品像「蒙德里安」风格时,豆包能够纠正我的错误,告诉我实际像的是安迪·沃霍尔。之后我们还可以进一步探讨,为什么会出现这个错误。我们也可以引导豆包对作品进行批判性的解读和评价。

这里还有一个很关键的点,因为有了图像视觉信息作为辅助,很多时候即便我发出指令的声音很小,豆包并未完整识别我所说的句子的每一个字,但它依然能通过捕捉关键词,准确理解我的意图。

在旅行、观光、展览……等视觉信息占比更高的场景,最能体现出豆包视频通话能力的优势。我们可以随手举起手机,让豆包看到我们眼前的东西,从最基本的「这是什么?」出发,一点点挖掘出更多的信息和知识。比如让豆包根据周边的景色推理出我们在哪,推荐周边值得一去的景点、活动、特色饮食,这既具有实用价值也充满乐趣,适合出游不喜欢做严密的计划,喜欢遇到更多偶然惊喜的 P 人。

包括在餐厅吃饭,碰到那些「不知道该怎么吃」的情形,也很适合通过视频通话功能求助豆包。比如吃荞麦面的时候店员端上来一壶像热水一样的东西,这个时候豆包也轻松给出了正确答案,壶里装的是荞麦面汤,可以和酱汁混合在一起喝掉。

豆包的视频通话功能,相比普通的图像识别,最关键的优势依然在于它的「互动性」更强。基于单张图像的理解和推理,很可能出现各种理解偏差、错误。有了视频模式之后,即便豆包给出了一个比较可疑的回应,我们也可以通过换个角度,提供更多信息,来给豆包进行更多思考和修正的机会。

比如在这个场景下,我们想知道酒店的某个装置的作用,问豆包之后它首先以为我们问的是前面的熨衣板。经过进一步交互,它知道了我们想问的是后面的行李架,但因为角度问题,它将行李架错误理解成了健身器材,之后换个角度进一步追问并识别之后,豆包成功给出了行李架这一答案。

这是视频通话的功能的关键优势之一。当下任何 AI 大模型都不可避免地会有「幻觉」和错误。当用户精心编写了一大段 prompt 却没有得到自己想要的输出结果时,就会极大打击他们使用 AI 的积极性。但通过给到更多信息,提供更多角度的输入补充,就能让 AI 更接近我们需要的正确答案。可以说,在视频通话场景下,AI 和用户形成了互动的正向循环。

除了日常生活场景,豆包的视频通话功能还可以在学习、工作等各种场景发挥作用,特别是基于一些纸质的材料进行理解和修改。比如对多页的纸质资料进行总结,或对学科题目进行解答、纠错。

02

模型技术的「木桶理论」

「视频通话」的功能本身非常简洁,任何用户理解起来都没有门槛,但在这背后,其实需要复杂的技术作为支持。

豆包视频通话功能的核心来自「豆包视觉理解模型」的支持。2024 年 12 月,豆包首次发布视觉理解模型,为视频通话功能提供了模型能力基础。

除了视觉感知之外,豆包视觉理解模型还具备深度思考能力。这让豆包实际上还可以通过摄像头直接进行解学科题目、分析论文以及诊断代码等任务。这也是为什么在视频通话过程中豆包能同时结合「图像画面」和「用户语音指令」,精准理解用户意图。

豆包并不是第一个实现这一功能的 AI 助手,但想要同时拥有优秀的视觉理解能力,再基于视觉理解和用户指令,将不同模态的信息综合理解后,生成用户想要的信息,同时还要做到低延迟,这一切就有很高的技术门槛。

整个过程有点像「木桶理论」,一个模型必须同时做好多个方面,才能做到像一个真实的「AI 助手」一样,满足用户的需要。

03

为什么「视频通话」能解锁 AI 交互的更多创新?

今天,「视频通话」只是豆包的一个小功能。但实际上,视觉理解能力所蕴含的潜力和可能性还不止于此。

自诞生至今,大模型 AI 助手的交互都是「一问一答」式,用户输入 prompt,AI 生成反馈。这里最大的矛盾在于,整理编写 prompt 是有门槛的,且这个门槛比想象中更高,而一问一答式的交互又是断裂的,大家都很容易「把天聊死」,面对 AI 也一样。

而视觉图像的引入,则为人机交互建立了一个「语境」,且这个语境的建立不需要任何门槛,天然富含信息,用户只需要举起摄像头就行了。实际上,人类自身理解世界的过程中,我们最重要的信息接收器官也一直是眼睛。

通过豆包的视频通话功能,这一模式的有效性已经得到体现。通过连贯的互动加上视觉理解,用户和 AI 交互的过程变得更自然了,可以通过不断补充、解释,来接近自己想要的那个目标。这种用户和 AI 互相引导,对 propmt 进行不断修正,能极大增加 prompt 输入的带宽和精确度。

实际上,这早就是行业共识。自 AI 大模型技术诞生之后,几乎所有硬件创新都是在探索一种「摄像头+麦克风」的组合,从 AI Pin,到各种 AI 智能眼镜,都是在建立一种让 AI「看+听」的感知模式。只不过目前大部分这类硬件,都还无法在性能和效率上,做到像手机那么高的可行度。

当下我们在使用豆包的视频通话功能时,依然能感受到它被手机这个硬件载体限制着。比如我们很难长时间举着手机对准前方我们看到的东西,以及在一些公共场合也不便于大声说话,无法和 AI 充分进行语音沟通,这都是智能手机作为传统硬件的限制所在。

从豆包的「视频通话功能」已经可以看出,让 AI「看+听」的输入模式,可能代表 AI 交互的更多可能性。它在软件上完全是可行的,随着模型能力的进一步发展,结合硬件创新,或许将进一步改变我们与 AI 的交互方式。

*头图来源:极客公园

本文为极客公园原创文章,转载请联系极客君微信 geekparkGO

极客一问

你如何看待豆包的「视频通话功能」

黄仁勋谈自动驾驶技术:虽然现在特斯拉遥遥领先,但未来每一辆车都必须具备。

点赞关注 极客公园视频号 ,

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
拳王邹市明自爆破产,不止赔光2亿,其妻子参加婚礼耍酒疯

拳王邹市明自爆破产,不止赔光2亿,其妻子参加婚礼耍酒疯

科学发掘
2026-01-21 13:42:08
英国陆军“挑战者3”坦克首次完成乘员实弹射击,达成重大里程碑

英国陆军“挑战者3”坦克首次完成乘员实弹射击,达成重大里程碑

假如明天来临
2026-01-21 15:34:08
孙颖莎主管教练确认!王励勤委以重任,蒯曼遗憾离开,对双方都好

孙颖莎主管教练确认!王励勤委以重任,蒯曼遗憾离开,对双方都好

体育就你秀
2026-01-21 05:05:03
内娱第一个为嫣然医院捐款的明星出现了,苗圃低调现身,正能量!

内娱第一个为嫣然医院捐款的明星出现了,苗圃低调现身,正能量!

小徐讲八卦
2026-01-21 15:46:55
1月21日译名发布:“午夜之锤”行动

1月21日译名发布:“午夜之锤”行动

参考消息
2026-01-21 14:13:48
中方是否会加入所谓的“和平委员会”?外交部回应

中方是否会加入所谓的“和平委员会”?外交部回应

环球网资讯
2026-01-21 15:55:04
山东一地给马路“盖被子”!当地:正修路,“盖被子”是为抗冻防滑

山东一地给马路“盖被子”!当地:正修路,“盖被子”是为抗冻防滑

潇湘晨报
2026-01-20 16:03:17
孙颖莎主管教练确认!王励勤委以重任,蒯曼遗憾离开,对双方都好

孙颖莎主管教练确认!王励勤委以重任,蒯曼遗憾离开,对双方都好

冷紫葉
2026-01-21 13:30:34
故事:02年南京军区警卫排长遭殴打,司令员亲率精锐拔除黑恶毒瘤

故事:02年南京军区警卫排长遭殴打,司令员亲率精锐拔除黑恶毒瘤

甜心泡泡
2025-04-07 15:24:48
张碧晨成都演出裤腰滑落,观众拍图上热搜,她改穿连体衣没说话

张碧晨成都演出裤腰滑落,观众拍图上热搜,她改穿连体衣没说话

阿废冷眼观察所
2026-01-21 13:20:58
周总理逝世21年后,中国银行核查账目时发现他名下存有巨额存款,一番调查后揭开了背后的真相

周总理逝世21年后,中国银行核查账目时发现他名下存有巨额存款,一番调查后揭开了背后的真相

寄史言志
2026-01-17 16:37:15
特朗普强买格陵兰岛,欧盟无限期暂停与美贸易协议,彻底翻脸

特朗普强买格陵兰岛,欧盟无限期暂停与美贸易协议,彻底翻脸

瞩望云霄
2026-01-21 13:14:14
中国再次亮剑,不少人寝食难安了!

中国再次亮剑,不少人寝食难安了!

安安说
2026-01-20 10:02:19
我国为什么要取消2元的人民币?原因很简单,看完您就知道了

我国为什么要取消2元的人民币?原因很简单,看完您就知道了

通文知史
2026-01-20 17:20:03
特朗普通告全球,要打破81年规则,中俄态度明显不同,普京需三思

特朗普通告全球,要打破81年规则,中俄态度明显不同,普京需三思

策略述
2026-01-20 17:13:37
没有这种食物,你的肌肉将消失!医生:60岁后恢复肌力的7种食物

没有这种食物,你的肌肉将消失!医生:60岁后恢复肌力的7种食物

健康之光
2026-01-04 09:31:45
三七互娱买下半个AI圈:智谱、月之暗面、百川智能均在其中

三七互娱买下半个AI圈:智谱、月之暗面、百川智能均在其中

钛媒体APP
2026-01-20 20:17:17
国乒女单接近全军覆没!5人参赛仅剩1人晋级,国乒独苗3:1获胜

国乒女单接近全军覆没!5人参赛仅剩1人晋级,国乒独苗3:1获胜

国乒二三事
2026-01-21 10:59:18
毛玉萍周正毅互掐升级!女方称其为“三无”男人,连名字都懒得喊

毛玉萍周正毅互掐升级!女方称其为“三无”男人,连名字都懒得喊

裕丰娱间说
2026-01-20 20:37:15
退休人员注意!2026年2月养老金发放时间或有变,会提前发放吗?

退休人员注意!2026年2月养老金发放时间或有变,会提前发放吗?

阿纂看事
2026-01-21 15:35:27
2026-01-21 16:47:00
极客公园
极客公园
让最棒的创新成为头条
11733文章数 78750关注度
往期回顾 全部

科技要闻

给机器人做仿真训练 这家创企年营收破亿

头条要闻

中国是否加入"和平委员会" 外交部回应

头条要闻

中国是否加入"和平委员会" 外交部回应

体育要闻

只会防守反击?不好意思,我们要踢决赛了

娱乐要闻

李亚鹏2天获1291万网友力挺

财经要闻

消失的投资金 起底华文映像电影投资骗局

汽车要闻

新一代理想L9电池加码体型加大 重夺高端话语权

态度原创

亲子
房产
家居
教育
公开课

亲子要闻

新华读报|儿童近视越来越早?专家给家长的“近视防控三件套”

房产要闻

那个砸下400亿的绿地,又要杀回海南了!

家居要闻

褪去浮华 触达松弛与欣喜

教育要闻

初中竞赛题:这种指数方程怎么解?数形结合一招搞定

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版