网易首页 > 网易号 > 正文 申请入驻

国产最强多模态宝座又易主?671B参数练就“火眼金睛”,基于DeepSeek打造

0
分享至


智东西
作者 陈骏达
编辑 李水青

智东西11月28日报道,刚刚,快手开源其新一代旗舰多模态大模型Keye-VL-671B-A37B。该模型基于DeepSeek-V3-Terminus打造,拥有6710亿个参数,在保持基础模型通用能力的前提下,对视觉感知、跨模态对齐与复杂推理链路进行了升级,实现了较强的多模态理解和复杂推理能力。

Keye-VL-671B-A37B有多强?我们先用几个案例来感受下。下面的图中有几张电影票?多数人看完第一眼可能会脱口而出:“三张。”


不过,Keye-VL-671B-A37B的观察更为仔细,结合票据上的文字,它能判断出其实图中仅有两张电影票,最上面那一张是爆米花小吃券。查看思考过程后,可发现它不仅准确识别画面中每张票据的文字、标识和版式差异,更能进一步推理:左边和中间的票据符合电影票的核心特征,右侧票据无座位信息、无影片场次标注,实为叠放的食品兑换券,并非电影票。

除了图像理解能力以外,Keye-VL-671B-A37B同样拥有强大的视频理解和推理能力。当被问及下方视频的镜头是怎样变化时,它能识别出“蓝色双层电车”、“Louis Vuitton”、“Tiffany & Co”等核心元素,并输出镜头变化的细节。


快手公布了Keye-VL-671B-A37B与其他VL模型的性能对比。在通用视觉理解和视频理解两大核心领域,Keye-VL-671B-A37B的整体表现超过了字节的Seed1.5-VL think、阿里的Qwen3-VL 235B-A22B等前沿VL模型。


在涵盖STEM、推理、通用问答、视频理解、OCR和纯文本等能力的26项主流基准测试上,Keye-VL-671B-A37B斩获18项最高得分。


目前,Keye-VL-671B-A37B已经正式开源,可在Hugging Face和GitHub下载体验。

Github:

https://github.com/Kwai-Keye/Keye

HuggingFace:

https://huggingface.co/Kwai-Keye/Keye-VL-671B-A37B

一、三阶段完成预训练,仅使用300B高质量数据

Keye-VL-671B-A37B采用DeepSeek-V3-Terminus作为大语言模型基座初始化,具备更强的文本推理能力,视觉模型采Keye-ViT初始化,这一组件来自Keye-VL-1.5,二者通过MLP层进行桥接。Keye-VL-1.5是快手今年9月初开源的一款多模态大模型,拥有80亿个参数,支持128k tokens扩展上下文。

Keye-VL-671B-A37B的预训练涵盖三个阶段,以系统化构建模型的多模态理解与推理能力。模型复用Keye-VL-1.5的视觉编码器,该编码器已经通过8B大小的模型在1T token的多模态预训练数据上对齐,具备较强的基础感知能力。

快手筛选了大约300B高质量数据预训练数据,这与其他大模型动辄以“T(万亿)”计算的训练数据差异很大。快手称,希望以有限计算资源高效构建模型的核心感知基础,确保视觉理解能力扎实且计算成本可控。

Keye-VL-671B-A37B的预训练分三步走:

第一阶段:冻结ViT和LLM,只训练随机初始化的Projector,保证视觉、语言特征能初步做对齐。

第二阶段:打开全部参数进行预训练。

第三阶段:在更高质量的数据上做退火训练,提升模型的细粒度感知能力。

Keye的多模态预训练数据是通过一套自动化的数据管线来构建的。快手对数据做了严格过滤、重采样,并加入VQA数据增强,让数据能覆盖像OCR、图表、表格这些常见且复杂的视觉格式,提升模型的感知质量和泛化能力。

在退火阶段,快手加入了DeepSeek-V3-Terminus生成的思维链数据,让模型在继续强化视觉感知的同时,不会丢掉原本强大的推理能力。

二、采用多阶段后训练策略,验证混合CoT数据效果更好

Keye-VL-671B-A37B的后训练由监督微调(SFT)、冷启动和强化学习三个步骤组成,训练任务涵盖视觉问答、图表理解、富文本OCR、数学、代码、逻辑推理等。

在SFT阶段,Keye-VL-671B-A37B技术团队使用了更多的多模态和纯文本长思维链数据,对模型的纯文本能力进行回火并增强多模态能力。在冷启动阶段,采用推理数据增强模型的推理能力,在强化学习阶段,采用复杂推理数据提升模型的think和no_think(思考与非思考)能力,并加入视频数据,增强模型的视频理解能力。

Keye-VL-671B-A37B技术团队对数据集中指令(Instruct)数据和长思维链(Long-CoT)数据的配比进行反复实验,以突破此前监督微调范式片面依赖指令数据的局限性。

这一过程中,快手验证了混合模式(Instruct + Long-CoT)相对于单一模式(Instruct)的优越性,即在SFT数据集中加入更多长思维链推理数据,有利于提升模型整体性能,以及改善后续训练稳定性。

loss曲线显示,在SFT阶段加入更多的CoT数据可以显著降低冷启动阶段的训练loss。


在多个benchmark上的性能对比也表明,混合CoT数据训练的模型相比于指令微调的模型取得了明显的性能提升。


在冷启动阶段,CoT数据的质量对于提升模型的推理能力至关重要,而纯文本模型的推理过程往往冗长而且存在大量重复,为了缓解过度思考的问题,Keye-VL-671B-A37B技术团队开发了严格的数据筛选流程,过滤掉存在冗余反思行为的思维链。


在Keye-VL-1.5-8B上的实验结果显示,过滤冗余数据对于模型的推理能力和感知能力均有增益。


三、强化学习采用Qwen3同款算法,并打造专用Verifier模型

强化学习阶段,快手没有使用传统的GRPO强化学习算法。GRPO是token-level(token层)的建模,在训练MoE模型时存在不稳定性。

在Keye-VL-671B-A37B的训练中,快手采用GSPO(Group Sequence Policy Optimization)作为底层强化学习算法,进行sequence-level(序列层)的建模,提升可验证奖励强化学习(RLVR)训练的稳定性。值得注意的是,该算法是阿里Qwen3系列模型的核心算法之一。

对于强化学习而言,奖励信号的质量至关重要。在Keye-VL-671B-A37B的强化学习系统中,快手首先训练了专门的Verifier(验证器),用于验证模型输出思考过程的逻辑性,以及最终答案与标准答案的一致性,Verifier模型采用Keye-VL-1.5 8B作为基座,训练过程包括SFT和RL两个阶段。

在SFT阶段,既有简单的二分类任务,即直接判断生成的答案是否与参考答案一致,也有更复杂的分析任务,需要Verifier模型采用think-answer的格式分析模型生成的回复的逻辑性和正确性。

在RL阶段,技术团队首先在大规模偏好数据上训练,然后利用人工标注的高质量数据集进行退火,提高Verifier模型的精度。

为了考察Verifier模型对于生成结果的检测精度,技术团队抽取了10000条训练数据以及模型生成的答案,对比Verifier模型和Qwen-2.5-VL 72B Instruct模型的检测精度,在人工抽样的150条Keye-Verifier与Qwen判别结果不一致的数据中,Keye正确的数目达到了128条,Qwen占22条。

基于Keye-VL-preview的预实验显示,Keye-Verifier提供的奖励信号,相对于基于规则匹配的奖励信号,使Keye-VL-preview在多个开源感知benchmark上的平均准确率提升了1.45%,在三个多模态数学数据集上的平均准确率提升了1.33%。

为了筛选高难度样本,快手利用Keye-VL-1.5-8B作为过滤器,在候选数据集上采样并用Verifier模型计算准确率,仅保留正确率在25%~75%之间的数据用于训练。在RL数据集中,快手加入了更多视频数据以提升模型的视频理解能力。

结语:多模态模型,迈向会“办事儿”的未来

快手称,未来,Keye-VL系列模型将在提升基础模型能力的同时,进一步融合多模态Agent能力,走向更“会用工具、能解复杂问题”的形态。模型的多轮工具调用能力会得到增强,让它能够在真实任务中自主调用外部工具,完成搜索、推理、整合。

同时,快手也会推进“think with image”、“think with video”等关键方向,使模型不仅能看懂图像与视频,还能围绕它们进行深度思考与链式推理,在复杂的视觉信号中发掘关键信息。最终,快手希望打造出更通用、更可靠、更强推理的下一代多模态系统。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
黎巴嫩宣布4月9日为全国哀悼日

黎巴嫩宣布4月9日为全国哀悼日

财联社
2026-04-09 06:21:05
美国派16名特工暗杀斯诺登,驻澳特战队击退CIA,荣获集体一等功

美国派16名特工暗杀斯诺登,驻澳特战队击退CIA,荣获集体一等功

富强巨靠谱
2025-02-26 09:30:43
男性一旦确诊,70%以上已是中晚期!

男性一旦确诊,70%以上已是中晚期!

番禺台
2026-03-12 10:06:52
6岁女童遇害:家属含泪爆作案动机,凶手被抓后冷静异常,太愤怒

6岁女童遇害:家属含泪爆作案动机,凶手被抓后冷静异常,太愤怒

眼光很亮
2026-04-07 11:38:00
陈丽华告别仪式举行:学生怀念其手把手教学,导演林大庆称欲表悼念心意遗憾错过

陈丽华告别仪式举行:学生怀念其手把手教学,导演林大庆称欲表悼念心意遗憾错过

红星新闻
2026-04-09 14:19:22
学费大调整!2026年教育收费全面改革,5大变化直接影响每个家庭

学费大调整!2026年教育收费全面改革,5大变化直接影响每个家庭

复转这些年
2026-04-05 18:03:58
研发5年投入13亿《王者荣耀世界》上线!盘点Q2能够玩到的MMORPG

研发5年投入13亿《王者荣耀世界》上线!盘点Q2能够玩到的MMORPG

17173游戏网
2026-04-08 11:38:55
欧冠悲喜夜!大巴黎2-0完胜利物浦,马竞复仇巴萨破20年不胜魔咒

欧冠悲喜夜!大巴黎2-0完胜利物浦,马竞复仇巴萨破20年不胜魔咒

钉钉陌上花开
2026-04-09 05:14:43
国民党由盛转衰五大关键推手,李登辉只能排第二,第一实至名归!

国民党由盛转衰五大关键推手,李登辉只能排第二,第一实至名归!

梦史
2026-03-25 04:13:02
于谦被曝成老赖,坐拥北京 60 亩马场,巨额债务真相藏不住了

于谦被曝成老赖,坐拥北京 60 亩马场,巨额债务真相藏不住了

橙星文娱
2026-04-06 13:09:46
悲催!东莞一工厂因拖欠近两年租金及违约金660万,被限十日搬离

悲催!东莞一工厂因拖欠近两年租金及违约金660万,被限十日搬离

火山詩话
2026-04-08 08:33:23
马英九首席智囊出山,郑丽文到达上海做出一个举动,信号不寻常 !

马英九首席智囊出山,郑丽文到达上海做出一个举动,信号不寻常 !

奇思妙想生活家
2026-04-08 16:56:07
美媒披露特朗普发动伊朗战争内幕:“全凭直觉”,除万斯外无人反对

美媒披露特朗普发动伊朗战争内幕:“全凭直觉”,除万斯外无人反对

澎湃新闻
2026-04-08 20:56:27
1938年老蒋制造黄河决堤,日军淹死数量惊人,真实情况你可能不信

1938年老蒋制造黄河决堤,日军淹死数量惊人,真实情况你可能不信

浩舞默画
2026-04-06 09:22:04
淄博一女子利用“拐弯让直行”碰瓷30余起,已刑拘!

淄博一女子利用“拐弯让直行”碰瓷30余起,已刑拘!

鲁中晨报
2026-04-09 11:41:56
万万没有想到,赖清德的父亲赖永都,非但不是日本鬼子他是中国人

万万没有想到,赖清德的父亲赖永都,非但不是日本鬼子他是中国人

史行途
2026-03-30 08:13:47
全国多地“老牌高速公路”收费期限届满,陆续进入“免费通行时代”

全国多地“老牌高速公路”收费期限届满,陆续进入“免费通行时代”

中国能源网
2026-04-08 11:05:04
雷军晒了张图,小米把豪车涂装玩成了"隐形联名"

雷军晒了张图,小米把豪车涂装玩成了"隐形联名"

报错免疫体
2026-04-06 16:45:14
意想不到!被中国用核武器轰炸45次的罗布泊,现在竟然变成了这样

意想不到!被中国用核武器轰炸45次的罗布泊,现在竟然变成了这样

万物知识圈
2026-04-09 10:12:05
特朗普被骗惨了! 内塔尼亚胡保证: 斩首哈梅内伊后小巴列维就能上

特朗普被骗惨了! 内塔尼亚胡保证: 斩首哈梅内伊后小巴列维就能上

小俎娱乐
2026-04-09 13:02:18
2026-04-09 15:12:49
智东西 incentive-icons
智东西
聚焦智能变革,服务产业升级。
11537文章数 117026关注度
往期回顾 全部

科技要闻

Meta凌晨首发闭源大模型 扎克伯格又行了?

头条要闻

陈丽华告别仪式举办 马德华:迟重瑞心里很难过

头条要闻

陈丽华告别仪式举办 马德华:迟重瑞心里很难过

体育要闻

8万人面前心脏骤停 现在他还站在球场上

娱乐要闻

金莎官宣结婚 与老公孙丞潇相差18岁

财经要闻

谈判基础已被破坏!霍尔木兹海峡关闭

汽车要闻

8155芯片+L2智驾 瑞虎5运动版上市 置换补贴价6.79万元起

态度原创

本地
房产
数码
艺术
公开课

本地新闻

建水Color Walk | 古城慢调,掉进春天的调色盘里

房产要闻

超级卷王登场!海口首个抬板四代宅,彻底刷新认知!

数码要闻

Google Gemini 新增“笔记本”功能 与 NotebookLM 打通知识库

艺术要闻

庞茂琨 2026油画写生新作

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版