长视频自动剪成短视频，LumiClip的两条流水线怎么做到的|张力|播客|lumiclip

长视频自动剪成短视频，LumiClip的两条流水线怎么做到的

2026-05-14 06:14:26　来源: 硬核玩家2哈

北京举报

分享至

把一小时的播客或Twitch录播丢进LumiClip，用户想要的是十条竖版短视频，直接能发。背后两条流水线扛下所有活：一条找高光时刻，一条把横屏画面重构成手机原生观感。

直接拿大模型处理整段转录文本，信号噪声比惨不忍睹。模型对视频没有空间感，不懂节奏张力，也分不清两个候选片段其实是同一时刻的不同机位。于是他们换了个思路：搭一条小型组装线，每步便宜、专注，只把幸存者传给下一阶段。等最强力的模型上场时，它面对的是精选短名单，而非原始噪音。

高光流水线分四步走。第一步用Deepgram Nova-3做转录，输出词级时间戳、说话人分离和语句边界，长视频切成块并行处理再合并。Nova-3够快，三小时录播也不会卡在这里。

第二步用多模态分类器给视频定性。七张均匀抽帧喂进一个轻量视觉模型，输出四类标签：对话、屏幕共享、游戏、动作。这个判断改变后续一切。播客和《使命召唤》直播的选片逻辑完全不同，屏幕教程和双人访谈的"好时刻"标准也天差地别。这一步在昂贵处理之前就先排除错误启发规则。

第三步让第二个大模型遍历合并后的转录文本，切成话题块——连贯的相关 speech 段落。每段按三个维度打分：自包含度、开场钩子强度、情感显著性。五分钟跑题 tangent 自包含分低，半句切断钩子分低，三项全过才进入下一轮。大部分垃圾在这里被过滤掉。

第四步用评分模型评估候选片段：开场是否够强、有无张力、有无 payoff、零上下文观看能否成立。低于硬质量线的直接丢弃。这是整条流水线最贵的一步，之所以能负担，是因为前面已经把几小时原始内容压缩到15-20个候选片段。分类器和话题分割器做了便宜的过滤活，这一步才能专心做质量活。

画面重构流水线处理另一个问题：横屏内容怎么在竖屏上好看。他们试过直接中心裁剪，人物经常出画；试过智能追踪，计算成本太高。最终方案是分析画面内容类型，不同场景用不同策略。对话场景锁定人脸位置，游戏场景保HUD信息，动作场景预判运动方向。每条策略都是针对特定内容类型的工程妥协，没有万能解法。

两条流水线的设计哲学一致：先用便宜工具缩小问题规模，再把昂贵资源砸在精选后的子集上。这不是追求单步最优，而是系统层面的成本-质量权衡。对创作者来说，结果是把专业剪辑师的判断流程，压缩进了几分钟的自动化处理。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

汽车要闻

手机 / 数码

房产 / 家居

长视频自动剪成短视频，LumiClip的两条流水线怎么做到的

阿里年营收首破万亿，AI终于不再是画大饼

女子闪婚获千万房产99%份额闪离后起诉分割 法院判了

女子闪婚获千万房产99%份额闪离后起诉分割 法院判了

14年半，74万，何冰娇没选那条更安稳的路

白鹿掉20万粉，网友为李晨鸣不平

美国总统特朗普抵达北京

C级纯电轿跑 吉利银河"TT"申报图来了

态度原创

卷疯了！最低杀到7字头！手握30万，海口楼市横着走！

干细胞能让人“返老还童”吗

家长就读，孩子免费修大学学分的社区大学？

沙特被指3月曾对伊朗发动多次“报复性”空袭

女子闪婚获千万房产99%份额闪离后起诉分割法院判了

女子闪婚获千万房产99%份额闪离后起诉分割法院判了

C级纯电轿跑吉利银河"TT"申报图来了