5月27日,一场关于视频原生多模态AI的实战工作坊将在线上举行。核心议题很直接:如何把最新的视频理解模型塞进现有的计算机视觉工作流,同时不烧穿预算。
Perceptron的Akshat Shrivastava会现场拆解他们的新模型。官方说法是"以极低的推理成本达到前沿模型水平"——翻译过来就是,别人花10块,你花1块,效果还能打平。
![]()
紧接着,Harpreet Sahota演示Perceptron AI在FiftyOne里的落地步骤。FiftyOne是Voxel51做的开源工具,专门处理计算机视觉的数据集管理和模型评估。这次合作意味着你不用从零搭 pipeline,现成的插件直接可用。
工作坊的具体内容包括三个实操环节:标注质量检查、大规模数据集筛选,以及模型评估。Voxel51团队会根据参会者的技术栈和数据特点做定制调整。线上和线下两种形式都有。
值得注意的细节是"video-native"这个词。很多所谓视频理解模型其实是把视频抽帧当成图片序列处理,原生设计意味着模型从架构层面就针对时序信息优化。Perceptron敢拿成本做文章,底气可能来自这里——结构对了,计算量才能真的降下来。
对做视频分析的团队来说,这类工具的成熟意味着一个转折点:以前用不起的模型,现在可以跑起来了。注册通道已开,线上参与免费。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.