把一小时的播客或Twitch录播丢进LumiClip,用户想要的是十条竖版短视频,直接能发。背后两条流水线扛下所有活:一条找高光时刻,一条把横屏画面重构成手机原生观感。
直接拿大模型处理整段转录文本,信号噪声比惨不忍睹。模型对视频没有空间感,不懂节奏张力,也分不清两个候选片段其实是同一时刻的不同机位。于是他们换了个思路:搭一条小型组装线,每步便宜、专注,只把幸存者传给下一阶段。等最强力的模型上场时,它面对的是精选短名单,而非原始噪音。
![]()
高光流水线分四步走。第一步用Deepgram Nova-3做转录,输出词级时间戳、说话人分离和语句边界,长视频切成块并行处理再合并。Nova-3够快,三小时录播也不会卡在这里。
![]()
第二步用多模态分类器给视频定性。七张均匀抽帧喂进一个轻量视觉模型,输出四类标签:对话、屏幕共享、游戏、动作。这个判断改变后续一切。播客和《使命召唤》直播的选片逻辑完全不同,屏幕教程和双人访谈的"好时刻"标准也天差地别。这一步在昂贵处理之前就先排除错误启发规则。
第三步让第二个大模型遍历合并后的转录文本,切成话题块——连贯的相关 speech 段落。每段按三个维度打分:自包含度、开场钩子强度、情感显著性。五分钟跑题 tangent 自包含分低,半句切断钩子分低,三项全过才进入下一轮。大部分垃圾在这里被过滤掉。
第四步用评分模型评估候选片段:开场是否够强、有无张力、有无 payoff、零上下文观看能否成立。低于硬质量线的直接丢弃。这是整条流水线最贵的一步,之所以能负担,是因为前面已经把几小时原始内容压缩到15-20个候选片段。分类器和话题分割器做了便宜的过滤活,这一步才能专心做质量活。
![]()
画面重构流水线处理另一个问题:横屏内容怎么在竖屏上好看。他们试过直接中心裁剪,人物经常出画;试过智能追踪,计算成本太高。最终方案是分析画面内容类型,不同场景用不同策略。对话场景锁定人脸位置,游戏场景保HUD信息,动作场景预判运动方向。每条策略都是针对特定内容类型的工程妥协,没有万能解法。
两条流水线的设计哲学一致:先用便宜工具缩小问题规模,再把昂贵资源砸在精选后的子集上。这不是追求单步最优,而是系统层面的成本-质量权衡。对创作者来说,结果是把专业剪辑师的判断流程,压缩进了几分钟的自动化处理。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.