网易首页 > 网易号 > 正文 申请入驻

“AI,你帮我挑个木瓜?”实测豆包视频通话功能 一场AI“视觉交互”争夺战已打响

0
分享至

国内AI(人工智能)视频交互赛道再添重磅玩家。

近日,字节跳动旗下AI智能助手“豆包”的App上线视频通话功能,支持视频聊天问答。据官方介绍,本次升级基于视觉推理模型,支持联网搜索。

《每日经济新闻》记者实测发现,豆包的视频通话功能用处不少,包括识别水果成熟度这样的日常用途。此外,在识别物品时,豆包更展现出持续记忆和逻辑推理能力。

5月27日,一位大模型算法工程师接受《每日经济新闻》记者微信采访时表示,豆包在视频通话中展现出的视频理解与语音交互能力,在中文语境中处于第一梯队。

继文生视频大模型后,字节在AI多模态领域又迈出关键一步。

能打视频电话的豆包,效果如何?

“视觉是人类了解这个世界最重要的方式,对于大模型来说也是如此。”在去年12月举行的“2024火山引擎FORCE原动力大会·冬”上,火山引擎总裁谭待发布了豆包视觉理解模型,称该模型具备更出色的内容识别、理解、推理、视觉描述和创作等能力。

5个月后,这一新模型的能力让所有豆包用户“眼见为实”了。

近日,豆包App上线了实时视频通话功能,这一功能的实现正是基于豆包视觉理解模型的能力。

为了更直观地展示这一新功能的应用场景,豆包团队在其官方微信公众号上列举了公园内花草识别、博物馆内实时讲解、图书馆内书籍推荐查阅以及买菜时的食材搭配这四大生活场景。在去年12月的发布会上,豆包团队就曾在演示视频中呈现了该模型在识别地标、读懂代码、分析体检报告、为用户提供穿搭意见等日常任务中的完成能力。

和豆包打个视频电话,是否真的能解决上述这些生活问题呢?百闻不如一见,《每日经济新闻》记者近日以挑选水果、识别物品和推荐书籍这三项任务,对豆包的实时视频通话功能进行了实测。

首先,是较为基础的挑选水果任务,这也是用户在小红书等社交媒体上分享得最多的应用场景。“你来帮我挑选一个木瓜吧。”当开启视频通话后,豆包通过对果实表皮颜色、饱满程度等指标的观察,快速给出了挑选建议。有小红书用户在使用豆包挑选蔬菜后表示:“感觉突然身边多了个懂行的买菜老大爷。”

在识别物品和推荐书籍的环节,豆包展现出了良好的记忆能力和连贯的实时搜索、互动性能。例如,面对杂乱摆放着书籍、巧克力、耳机和电子时钟等物品的书桌,豆包可以轻松识别所有物品的详细信息并记忆它们在桌上的摆放位置。

这一记忆功能在记者浏览书架时得到了更为充分的展现。记者在书店随机挑选了一个书架,就书架一侧第一本书和豆包进行沟通,同时举起手机走向了书架的另一头,再突然提出“刚刚有一本蔡磊写的书,你看到了吗?”的问题,豆包迅速记起这本曾在镜头前一闪而过的书,并对该书进行了简单介绍。

“(记忆功能的实现)大概率是每隔几秒给模型拍摄一张图片。”一位大模型算法工程师在微信上接受《每日经济新闻》记者采访时表示,豆包在该功能中展现的视频理解和语音交互能力,在中文语境中处于第一梯队。

与豆包进行关于多本书籍的聊天时,豆包能够结合记忆能力与实时搜索,对书籍内容、作者生平、同类作品推荐等话题进行自然延伸,整个交互过程流畅且生动。

从“听见”到“看见”

在去年,AI的视频交互功能就已经在业界掀起波澜。

2024年8月,“智谱清言”App率先推出了国内首个面向C端(消费者端)开放的视频通话功能。一时间,网上涌现出大量对视频通话功能的测试。测试方式从最基础的物体识别到生活场景的沟通交流,甚至包括辅导小学生作业。

赶在OpenAI和谷歌之前,智谱清言先一步将AI视频交互在国内落地。在国际市场上,从“听见”到“看见”同样成为AI进化的下一步。

2024年5月,OpenAI公司的“GPT-4o”发布。现场,OpenAI的研究员演示了GPT-4o的实时视觉功能——它通过手机摄像头实时解了一个方程,甚至还能通过前置摄像头观察用户的面部表情,分析用户的情绪。同月,谷歌推出的“Project Astra”同样具备实时语音、视频交互的能力。

今年4月,火山引擎总裁谭待也曾表示:“模型要有能力做好思考、计划和反思,并且一定要支持多模态,就像人类具备视觉和听觉一样,Agent(智能体)才能更好地处理复杂任务。”

视频通话功能的实现,就建立在其多模态能力之上。从最后呈现的使用形态来看,视频通话功能使得用户无需再通过语言组织传达眼前的信息,这无疑是对AI使用门槛的再一次降低。

技术能力的升级为AI打通了视觉和听觉的“任督二脉”,但也要看到,AI智能助手的快速扩张已经来到了瓶颈,新的交互范式可能是新阶段的关键。

据量子位智库数据,4月份Web端(网页端)AI智能助手的总访问量首次出现下降,说明以尝鲜驱动的扩张期或已结束。

随着豆包在今年3月接入抖音及其“打电话”功能在社交媒体上受到关注,豆包也在通过抖音生态快速触达用户。

27日,知名经济学者、工信部信息通信经济专家委员会委员盘和林在接受《每日经济新闻》记者微信采访时表示,豆包有着庞大的用户应用生态作为支撑,扩散应该比对手要快。

他认为,豆包在商业拓展时主要还是和“剪映”集成,可以和抖音的内容审核AI结合。比如可以通过AI发现违规的短视频内容。盘和林还表示,AI视频交互的使用前景非常光明,比如生成虚拟人进行直播,又比如通过AI识别来迅速对视频文件进行归纳总结。

另一方面,AI眼镜这一类符合视频通话应用场景的新硬件逐渐升温,也给AI视频交互带来了更多可能性。

盘和林认为:“AI视频交互可以和AI眼镜有限结合,但现阶段AI眼镜的算力和显示等方面还存在技术缺陷。所以,期待未来有新的融合。”

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
12年没踢世界杯了 意大利晋级2026世界杯需连赢2场 概率仅63%

12年没踢世界杯了 意大利晋级2026世界杯需连赢2场 概率仅63%

智道足球
2026-03-26 18:08:45
《火遮眼》北美定档,近10年最强动作片,没人能挡住谢苗成为巨星

《火遮眼》北美定档,近10年最强动作片,没人能挡住谢苗成为巨星

阿纂看事
2026-03-26 16:03:34
他是CBA现役最老球员,打了20年拿5冠,身家过亿,已为退役铺路

他是CBA现役最老球员,打了20年拿5冠,身家过亿,已为退役铺路

以茶带书
2026-03-25 16:35:52
中东大战,真正让特朗普害怕的是:中国的已读不回!

中东大战,真正让特朗普害怕的是:中国的已读不回!

似水流年忘我
2026-03-26 02:13:59
史前大洪水掩盖什么真相?所有文明都曾记录,是人类共同的记忆?

史前大洪水掩盖什么真相?所有文明都曾记录,是人类共同的记忆?

历史甄有趣
2026-03-20 15:40:07
他已任武汉市政府党组成员,安徽桐城人

他已任武汉市政府党组成员,安徽桐城人

文都桐网
2026-03-26 15:45:13
五种香烟已被列入“黑名单”,或许有你喜欢的,不妨对照自查

五种香烟已被列入“黑名单”,或许有你喜欢的,不妨对照自查

健康之光
2026-03-25 21:20:05
马斯克放话:比MPV更酷的新车要来了,特斯拉却只剩3款车在卖

马斯克放话:比MPV更酷的新车要来了,特斯拉却只剩3款车在卖

我是一个养虾人
2026-03-25 23:32:20
课本为何没讲“田忌赛马”后续?愚蠢的胜利,让他几年后自食其果

课本为何没讲“田忌赛马”后续?愚蠢的胜利,让他几年后自食其果

谈史论天地
2026-03-24 15:45:06
曝张雪峰遗嘱内容,和原配离婚原因被扒,三段感情时间线全曝光!

曝张雪峰遗嘱内容,和原配离婚原因被扒,三段感情时间线全曝光!

古希腊掌管松饼的神
2026-03-26 09:30:58
3月26日俄乌最新:靴子终于落地了

3月26日俄乌最新:靴子终于落地了

西楼饮月
2026-03-26 19:48:54
天妒英才!西北工业大学严红教授离世,同门发声,透露患病情况

天妒英才!西北工业大学严红教授离世,同门发声,透露患病情况

凯旋学长
2026-03-26 14:50:48
樊振东复出迎关键机遇!王励勤已无退路,传闻回归条件已正式生效

樊振东复出迎关键机遇!王励勤已无退路,传闻回归条件已正式生效

阅微札记
2026-03-26 20:24:44
克罗斯“吐槽”皇马:刚拿欧冠老佛爷就催明年?这豪门真不好混!

克罗斯“吐槽”皇马:刚拿欧冠老佛爷就催明年?这豪门真不好混!

仰卧撑FTUer
2026-03-26 22:58:07
都看出张雪峰不对劲,却没人拦得住,最终还是走了

都看出张雪峰不对劲,却没人拦得住,最终还是走了

笑熬浆糊111
2026-03-25 12:21:46
近半年来,多家工厂密集发布停工放假通知!

近半年来,多家工厂密集发布停工放假通知!

黯泉
2026-03-26 18:48:20
中东突发!刚刚,直线拉升

中东突发!刚刚,直线拉升

中国基金报
2026-03-26 12:35:21
稀土贸易战:WTO判中国输,美西方终成输家

稀土贸易战:WTO判中国输,美西方终成输家

遁走的两轮
2026-03-15 03:13:32
人老了,搞垮自己最快的方式就是:胡思乱想、过度操心、情绪失控

人老了,搞垮自己最快的方式就是:胡思乱想、过度操心、情绪失控

风起见你
2026-03-16 11:07:25
精致男孩!戴昊谈做美甲:我主动给教练看 他也挺喜欢表达了尊重

精致男孩!戴昊谈做美甲:我主动给教练看 他也挺喜欢表达了尊重

狼叔评论
2026-03-26 17:50:05
2026-03-26 23:36:49
每日经济新闻 incentive-icons
每日经济新闻
中国主流财经全媒体平台。
1519463文章数 2724759关注度
往期回顾 全部

科技要闻

美团发布外卖大战后成绩单:亏损超200亿

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

家居
旅游
艺术
本地
公开课

家居要闻

傍海而居 静观蝴蝶海

旅游要闻

探访资中文旅新地标 邂逅千年古城的诗与远方

艺术要闻

哪一座桥不是风景?

本地新闻

救命,这只酱板鸭已经在我手机复仇了一万遍

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版