网易首页 > 网易号 > 正文 申请入驻

94毫秒延迟、监控胜率100%!国产视频模型干翻Gemini

0
分享至

来源:市场资讯

(来源:新智元)


新智元报道

【新智元导读】京东开源JoyAI-VL-Interaction,把视频AI从「你问我答」的轮次对话,推进到「持续在场、主动开口、按时机说话」的流式交互新范式。

世界杯决赛最后一秒,球进了。

你身边那个号称能「看懂视频」的AI,还在安静地等你开口问一句「刚才发生了什么?」。

这就是今天几乎所有视频AI的样子——不管包装得多酷炫,骨子里都是同一个逻辑:你问,它答。

可真实世界里最需要AI出声的那些瞬间,从来不会等人提问——解说员不会等导播发话才开口喊「Goal」。

这些场景要的不是「问答」,而是一双全程在线、自己拿主意什么时候该说话的眼睛。

现在,京东把这双「眼睛」开源了,它叫JoyAI-VL-Interaction。


JoyAI-VL-Interaction的重点不只是「看懂视频」,更是要让模型在连续的视频流里自己决定——何时回应、何时沉默、何时把复杂任务甩给后台。

一句话:它学会了什么时候该闭嘴,更学会了什么时候必须开口。

这套系统刚开源就拿到了生态层面的背书——JoyAI-VL-Interaction 获得了 vLLM-Omni 的 day-0 支持,已原生合入 vLLM-Omni 主线。

开发者可以在 vLLM-Omni 上一键拉起服务体验,也可以直接从京东的仓库一键启动。


代码:https://github.com/jd-opensource/JoyAI-VL-Interaction

模型:https://huggingface.co/jdopensource/JoyAI-VL-Interaction-Preview

数据集:https://huggingface.co/datasets/jdopensource/JoyAI-VL-Interaction

技术报告:https://huggingface.co/papers/2606.14777

主动、实时、还会「甩锅」

JoyAI-VL-Interaction拥有三项核心能力。

第一是自主交互(Proactive Interaction)。

这是整个模型最颠覆直觉的地方——它不等你开口,自己判断这一刻值不值得说话。

看护场景里,老人正常活动它一声不吭,一旦察觉异常立刻预警,而不是每隔十秒问你「需要帮忙吗?」。

实时翻译场景更直观:你跟它说「把电影字幕翻译成中文」,它不会翻一句停下来等你发下一条指令,而是自己盯着画面,每出一行新字幕就主动翻译。

比如,JoyAI-VL-Interaction在街头采访视频上逐句翻译字幕,全程不落一句。

第二是实时响应(Real-time Response)。

能力有了,速度跟不上也白搭。

JoyAI-VL-Interaction靠三个关键设计把延迟压到了亚秒级:

一是JoyAI-VL-Interaction推理系统是vllm原生适配的,确保有较高的KV Cache复用率,获得了 vLLM-Omni 的 day-0 原生支持。

二是AdaCodec——它不给每一帧都花完整的ViT token,而是只在画面真正发生变化的「关键帧」上花全量token(约256个),中间的「可预测帧」只用大约16个轻量P-token就搞定。

这样一来,即使持续看几个小时的视频,token预算也只和画面变化量成正比,而不是随帧数线性爆炸。

三是长程记忆的分层缓存:短期记忆保留最近的原始视觉token,中期记忆存文本摘要,长期记忆做进一步压缩。

这三层加起来能覆盖大约12小时的上下文,而且压缩过程是异步运行的,完全不堵实时推理。

2026 世界杯墨西哥对南非的直播流里,用户只丢了一句「裁判出示红牌时提醒我」,JoyAI-VL-Interaction 就自己盯着画面,红牌亮出的一瞬间同步喊出「裁判出示红牌」——平均延迟 94 毫秒,比现场观众的反应还快。

有人摔倒时,也能够及时提醒。而不是事后总结。

第三是任务委派(Delegation)。

这招最像人。

碰上超出实时推理能力的难题——比如你对着一道数学证明题说「帮我推导一下」,或者看着手机界面说「用HTML把这个APP页面复刻出来」——它不会硬答一通然后翻车。

JoyAI-VL-Interaction能主动把活儿甩给后台的大模型或Agent,自己继续盯着画面、陪着你,等后台结果回来再自然接回对话。

比如,它可以一边把「复刻手机界面」的任务交给后台,一边继续和用户聊天、回答其他问题,后台返回HTML代码后无缝衔接,全程不断线。

你这边还在跟它你问我答,后台已经默默把证明微分中值定理这种硬骨头啃完了。

而且这个「后台」是可替换的:JoyAI-VL-Interaction已经做好了到Claude Code、OpenClaw、Hermes Agent等各种Agent的桥接,任何API、模型都能接进来当「后台大脑」。

前台实时陪伴,后台默默干活——它不再只是个视频问答助手,更像一套「边看边说+后台执行」的协作系统。

这就像是在物理世界和数字世界之间自由穿梭。

听着有点玄,但拆开看就是:前台模型盯着摄像头里的真实世界(物理世界),后台Agent去完成搜索、写代码、下单之类的数字世界任务。

看到了,判断了,还能动手干活——一个8B的小模型,居然跑出了Agent的味道。

从「一问一答」到「边看边说」

能力清单看着热闹,可它到底比Gemini强在哪?得先看清老办法卡在哪。

今天的视频通话AI看着像实时交互,扒开看还是轮次对话:你抛一个问题,它回答,然后等你下一句。

本质和文字聊天没区别,只是把输入换成了画面。

豆包的视频通话还更主动一点,靠的是外部轮询触发器定时「打一枪」才看画面。Gemini的视频通话更直接,连这一枪都省了——你不问,它连一帧都不给你看。

同样是世界杯这个例子,不论是豆包还是Gemini都没能实时做出反应。

JoyAI-VL-Interaction改写的正是这套逻辑:从「轮次对话」走向「流式交互」。

「要不要开口」这个决定,第一次被交给了模型自己——说话、沉默、或者把难题甩给后台。不是if-else规则,而是模型自己学来的判断。

无独有偶,上个月由前OpenAI CTO Mira Murati创立的Thinking Machines Lab也抛出了「交互模型」的概念。

两个团队几乎同时撞到同一个判断——「从轮次走向交互」是个时机已到的方向。

不同的是,TML放出的是276B的research preview,暂不公开;京东则是模型、数据、训练方法和完整系统全部开源。

跟Gemini正面掰手腕

光讲理念是虚的,京东直接拉对手做了人类评测。

在监控预警、实时计数、实时翻译、时间感知、直播解说与引导、长程记忆等六类真实流式场景里,总共58个案例,JoyAI-VL-Interaction对阵豆包、Gemini。

5位专业评审从回答质量和时机两个维度打分,整体胜率分别是77.6%和87.9%。


几个数字尤其抢眼:

JoyAI-VL-Interaction优势不只是「答得对」,更在于「来得及」和「跟得住」。

豆包靠轮询触发、Gemini卡在一问一答,反应永远受制于外部节奏;JoyAI-VL-Interaction把「何时开口」训进了模型内部,反应只受推理速度限制。

更何况,它眼下只是个8B的小模型,通用知识和表达丰富度未必占优,数据和评测也还在早期。

但这么小的参数量就跑出了这样的交互能力,说明把交互性训进模型这条路,数据效率高得惊人。

技术报告甚至提到了「能力涌现」——引导用户在手机APP上完成购物、看着PPT即兴讲课,这些从未被训练过的能力自己冒了出来。

不是背答案,是模型学会了一种通用的「看着办」能力。

开源的

是一整套能跑起来的系统

京东的诚意,藏在「开源」二字里。

它放出来的不是一个孤零零的权重,而是训练recipe、超过400万条时间对齐的交互数据,外加一套完整可部署的系统——ASR/TTS语音模块、三层长程记忆、可视化操作界面、后台大脑桥接,全是可插拔模块。

拿来就能搭一个能听、能说、能看、能记的实时助手,插上摄像头或接入直播流就能直接跑。

这在国内多模态开源圈里几乎是头一回。

过去开源模型大多只放权重和推理代码,想跑起来还得自己搭半套基建。

而京东这次连vLLM推理优化、WebRTC视频流接入、会话状态管理都一并放出,把「开源」从「给你一把锤子」升级成了「给你一整套工具箱加使用手册」。

为什么是京东?

答案藏在「全球最大的物理世界运营中心」里。

会「看视频」的AI满地都是,但能在真实世界里持续干活的AI,需要的不只是算法——还需要场景、数据和落地入口。

供应链、零售、物流、仓储、履约、客服——这些年京东在真实世界趟出来的流程和触点,恰恰是多模态AI最缺的土壤。

仓库里的异常检测、物流途中的货品监控、直播间里的实时解说和购物陪伴、售后服务中的视频通话指引——每一个都是「需要AI持续在场」的真实刚需。

这也解释了为什么JoyAI-VL-Interaction的场景清单读起来像一张京东业务地图:世界杯赛事直播解说、监控预警、老人儿童看护、宠物照看、手机购物陪伴、穿搭评价、操作指引、AI视频通话……每一个场景里,人盯着屏幕会累、会走神,机器却能7×24小时不眨眼。

从「看懂」到「看着办」,差的从来不只是一个模型,而是让它真正用起来的那片土壤——能在真实世界里一直干活的模型,得有人先把那片土壤养出来。

现在,京东把模型和土壤一起摊开了。


特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
何必自断后路?乌克兰触碰历史红线,亲手葬送核心援乌大后方!

何必自断后路?乌克兰触碰历史红线,亲手葬送核心援乌大后方!

娱乐喵喵说
2026-06-23 15:06:01
国内50后还剩多少人?真实数据曝光,活到80岁的比例太意外!

国内50后还剩多少人?真实数据曝光,活到80岁的比例太意外!

华庭讲美食
2026-06-10 17:04:25
65岁的陈冲回上海住,不是养老,不是退圈,只是把家搬回了老地方

65岁的陈冲回上海住,不是养老,不是退圈,只是把家搬回了老地方

一盅情怀
2026-06-18 12:58:14
被抛弃不到半年 就拿新东家2.12亿合同 奇才恐“培养”下一个比尔

被抛弃不到半年 就拿新东家2.12亿合同 奇才恐“培养”下一个比尔

后仰跳投绝杀
2026-06-23 16:40:22
喊了几十年节约用水,为何突然没声?原来中国水危机是这样翻盘的

喊了几十年节约用水,为何突然没声?原来中国水危机是这样翻盘的

混沌录
2026-06-21 21:39:13
92年我娶了村里母老虎,新婚3天没敢同房,第4天她突然拦下我

92年我娶了村里母老虎,新婚3天没敢同房,第4天她突然拦下我

青青会讲故事
2026-06-22 11:40:39
葡萄牙初代图腾拍桌怒吼:迟到20年真相,扯下足坛最肮脏的遮羞布

葡萄牙初代图腾拍桌怒吼:迟到20年真相,扯下足坛最肮脏的遮羞布

海阔山遥YAO
2026-06-23 15:35:20
中央开始严查,多地机关事业单位大整顿启动,这几类人受影响最大

中央开始严查,多地机关事业单位大整顿启动,这几类人受影响最大

职场资深秘书
2026-06-22 17:22:38
三十分钟“午睡”被推翻,医生说:人到70岁,午睡尽量守住4规矩

三十分钟“午睡”被推翻,医生说:人到70岁,午睡尽量守住4规矩

荷兰豆爱健康
2026-06-22 12:19:25
人口告别世界第一?催生“二孩”无效后,国家终于向住房出手了!

人口告别世界第一?催生“二孩”无效后,国家终于向住房出手了!

混沌录
2026-05-30 23:41:14
23日凌晨1点,仅37分钟,梅西刷爆12项历史纪录!C罗铁粉无情嘲讽

23日凌晨1点,仅37分钟,梅西刷爆12项历史纪录!C罗铁粉无情嘲讽

野渡舟山人
2026-06-23 15:36:58
日乒美国大满贯14人名单确定!张本智和复出冲冠 18岁美和兼三项

日乒美国大满贯14人名单确定!张本智和复出冲冠 18岁美和兼三项

颜小白的篮球梦
2026-06-23 10:29:56
江苏连云港通报:废品收购站经营者已被采取刑事拘留强制措施

江苏连云港通报:废品收购站经营者已被采取刑事拘留强制措施

观察者网
2026-06-22 10:47:09
中国男篮战荷兰12人:杨瀚森回归国家队首秀 赵继伟领衔5人轮休

中国男篮战荷兰12人:杨瀚森回归国家队首秀 赵继伟领衔5人轮休

狼叔评论
2026-06-23 15:11:09
德媒:绝大多数以色列人认为伊朗是赢家

德媒:绝大多数以色列人认为伊朗是赢家

参考消息
2026-06-22 14:51:06
央视怒批,目不识丁,洋相百出,绝望文盲再翻车,冯远征又说对了

央视怒批,目不识丁,洋相百出,绝望文盲再翻车,冯远征又说对了

墨印斋
2026-05-29 13:20:21
2026下半年,否极泰来,咸鱼翻身,运势逆转的三个星座

2026下半年,否极泰来,咸鱼翻身,运势逆转的三个星座

小晴星座说
2026-06-23 16:08:37
没想到,马宁世界杯主哨首秀仅1天,竟在海外实现口碑逆转

没想到,马宁世界杯主哨首秀仅1天,竟在海外实现口碑逆转

观察鉴娱
2026-06-23 11:04:01
闫学晶案判了,结果大快人心,和搭档冯巩关系早就真相大白

闫学晶案判了,结果大快人心,和搭档冯巩关系早就真相大白

乡野小珥
2026-06-23 16:17:46
4年2.12亿!恭喜特雷杨!签下史诗级大合同

4年2.12亿!恭喜特雷杨!签下史诗级大合同

篮球教学论坛
2026-06-23 06:12:28
2026-06-23 16:52:49
新浪财经 incentive-icons
新浪财经
新浪财经是一家创建于1999年8月的财经平台
3740401文章数 8277关注度
往期回顾 全部

科技要闻

48名中国开发者联名举报苹果

头条要闻

媒体:赖清德首次说出"拒绝中共统治" 还声称不是挑衅

头条要闻

媒体:赖清德首次说出"拒绝中共统治" 还声称不是挑衅

体育要闻

扬尼斯去了迈阿密:凯尔特人怎么办?

娱乐要闻

内娱95后顶流格局发生潜移默化的变化

财经要闻

智谱万亿市值,国产Anthropic真来了?

汽车要闻

华为智驾ADS限时优惠月底结束 7月1日前下订立省3000元

态度原创

游戏
艺术
本地
家居
公开课

2026最新实测!KK对战平台官方解答:老玩家cs1.6怎么联机防掉线?

艺术要闻

90后川妹子独居成都三层小楼,不装窗帘,活得太自在了

本地新闻

吃一次广东龙舟饭,才懂什么是豪华盛宴

家居要闻

绿意盎然 自然之境

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版