前端同事看走眼了，这个“游戏网页”其实全是AI写的!|调用|上下文|kimi|agent|深度思考按钮

前端同事看走眼了，这个“游戏网页”其实全是AI写的!

2026-01-27 22:37:17　来源: InfoQ

北京举报

分享至

作者｜木子、高允毅

Vibe Coding 的进化速度，可能还是超乎了我们的想象。

今天，我们在测试 Kimi K2.5 的网页生成功能时，旁边的前端开发同事还以为是真实的网页场景，低声问我：“你这是在写代码吗，还是在摸鱼打游戏？”

直到我说出这是 AI 生成的，而且是只用了几句话就做出来的效果，这让她大为惊讶。

该网页长这样，现在如果不明说的话，确实已经难辨“真假”。

Kimi K2.5 在今天刚刚上新，它没有把重点放在“单项能力突破”上，而是试图把视觉理解、代码生成、交互设计，以及多 Agent 协作，都压进了同一个模型里，一口气提供了四种使用模式。

在笔者看来，其中最有意思的，当属Agent 集群模式——这也是在国内 AI 上第一次出现的功能，它可以让原本耗时数天的工作，现在仅需十几分钟就能做完，简直是指数级的提效。

比如，要做 100 家公司的市场调研，它能指挥一群不同行业背景的“分析师”分头行动，十几分钟出结果，而不是几个星期；面对 300 页的复杂翻译项目，它能动员一个“语言学专家”团队，快速、准确地完成交付。

四种模式具体如下。不同需求的用户，从随手一问，到需要并行推进的复杂任务，都能找到明确的入口：

快速模式，提供最快的响应体验。
思考模式，可以用来解答复杂问题。
Agent 模式，擅长深度研究、PPT、Excel、Word、PDF 和网页生成等任务——目前 K2.5 已经开始掌握 Office 套件的核心技能，其协助办公的能力不容小觑。
重磅全新模式：Agent 集群模式，适合需要并行处理的复杂任务

另外，新编程产品Kimi Code不仅能直接在终端里运行，还能无缝集成到 VSCode、Cursor、Zed 这些 IDE 里，支持直接输入图片和视频。

月之暗面 CEO 杨植麟，这次亲自为新模型发布录制了视频。

1 Kimi K2.5 实测

看起来很强是一回事，那用起来是不是另一回事？以下是各种实操案例，InfoQ 也上手测了几组。

几分钟搓出前端网页，动效自然，还能有声音

为了测试 Kimi K2.5 的视觉理解能力和 Vibe Coding 水平，我们首先直接甩出一张产品页面截图，再配上几句文字描述，看看它能不能自己看懂、自己理解，顺手还能复刻出一个像模像样的产品页面。

比如让K2.5做个一个最近很火的心灵疗愈类项目，给的Prompt如下：

模仿情绪疗愈类产品，生成一个情绪记录类APP，适合年轻人释放情绪，让人一眼觉这里允许脆弱的地方。可以说，这个 Prompt 并不友好：提示不多，要求不少，还同时考验了它的视觉理解能力、逻辑思维、产品思维以及设计审美。

可以说，这个Prompt提示不多，要求不少，对模型视觉理解能力、逻辑思维、产品思维以及设计审美能力都是考验。

从结果看，K2.5对“情绪”这个概念本身是有一定理解和思考的。它生成的是一个以沉浸体验为核心的情绪页面，而不是常规的情绪记录工具。

视觉上，明显没走浅色卡片流那条老路，而是用了低对比背景、连续画面和节奏型动效（类似呼吸或旋涡），交互重点放在“停留”和“进入状态”上。

在功能组织上，输入、反馈和过渡是连在一起的：用户不是“点一个按钮开始记录”，而是被自然引导进入输入状态——这种设计说明它在生成时已经考虑了状态流转，而不是只输出一个静态页面。

接下来，我们不再给任何视觉参考，只输入文字提示，让 K2.5独立完成整个网页设计。

我们给的 Prompt 很简单：

做一个类似 4399 的小游戏平台，要有完整的游戏分类频道；但视觉审美要大厂级、高端网游风，整体要酷炫、有冲击力，并且可交互。

说实话，Kimi K2.5 的输出结果确实有点超乎我们的预期。

它给出的页面，既贴合主题，又有高级感；模块分区赏心悦目，视觉层级清晰，呈现方式更接近内容推荐平台，而不是简单的列表堆叠——比起几年前的那些小游戏网页可谓降维打击。

在笔者看来，就这类前端生成任务而言，Kimi K2.5 已经可以算是站到了 Vibe Coding 第一梯队，其审美力和全球大热的 AI 工具 Lovable 有不少共通之处。

类似的例子还有不少。下面这些网页，都是 K2.5 在图像生成工具的辅助下，仅凭一条 Prompt直接生成的完整原型。

除了做整个页面，我们还单独测评了一下K2.5 对动效的理解能力。

左侧是我们输入的一段小视频，右侧是它生成的效果。结果 K2.5几乎是完整复刻，拖动鼠标，图片会随之产生位移变化，逻辑和节奏都对得上，动效也足够丝滑。

也就是说，K2.5 不是在“画动效”，而是真的理解了交互在时间维度上的设计意图。

这对开发和设计而言，意味着动效不再必须从一堆参数和曲线开始，而是可以先把想法直接跑成一个可交互的原型，用几分钟看清值不值得投入工程成本。

以前要干好几天的活，十几分钟就能搞定

至于 K2.5 的Agent 集群模式，最直观的能力就是：把时间尺度直接拉短了。过去需要“按天算”的复杂任务，现在往往十几分钟就能跑完一整轮。

来看一个实测例子。

一次性向 Kimi 的 Agent 集群投喂了40 篇论文，主题横跨心理学与 AI。任务是，在此基础上产出一份系统性的研究综述。

Kimi 的处理流程大致分成了三步：第一步，完整通读。主 agent 多次调用工具，按顺序把 40 篇论文逐篇过了一遍，确保所有关键信息都被纳入同一上下文，而不是零散记忆。

第二步，并行写作。在理解整体结构后，Kimi 自动派生出多个子 agent——可以理解为它的“分身”，分别负责不同章节的撰写，各自并行推进。

第三步，统一收敛。主 agent 最后回到台前，负责校对、取舍和整合，把各个子 agent 的成果汇总成一份长达几十页的专业 PDF 级综述。

整个过程里中，几乎看不到人工干预。

2 当Transformer开始吃力，K3可能用上原创架构KDA

我们先后测评了一整天，总体感受很明确：

Kimi K2.5 在自己擅长的多个方向上，已经跑得相当顺了。比如网页设计生成、动效理解、多Agent 协作等场景，完成度和稳定性都比较成熟。不过也有短板，比如在 3D 建模这类强几何约束的任务上，表现还欠佳。

当这些能力被一项项跑出来之后，更现实的问题也浮现出来：如果这些复杂推理真的要被当成日常能力反复调用，底层的计算方式还能不能长期扛得住？

月之暗面给出的一个解法，是Kimi Linear，而Kimi Linear中的一个核心创新点，是一个新的实验性架构：KDA（Kimi Delta Attention），一种线性注意力模块的相关思路。

杨植麟此前在Reddit上的AMA（Ask Me Anything）等公开交流中已经透露，下一代K3模型，可能会使用月之暗面的这个新架构KDA。

要讲清楚KDA的优势，我们还得先从Transformer架构说起。

本质上，Transformer的注意力机制是全连接的：每个 token 都要和上下文里的其他 token 打一次交道。结果，输入一长，计算量就按平方增长（O(N²)）；生成新 token 时，还要不断回查之前的 KV Cache。

当上下文一拉长，显存压力迅速飙升，尤其是在 128K以上的场景里，几乎是“显卡先崩，钱包随后”。

——而且模型越强，这个问题就越明显。

也正因为如此，过去几年里，线性注意力一直是业内反复被拿出来讨论的一条路：把注意力计算从 O(N²) 压到 O(N)，让模型跑得更快、也更省。

但现实是，早期不少线性注意力方案确实快了，却很难兼顾记忆能力：信息留不住，推理质量也跟着打折。

而KDA的核心思想可以概括为一句话：不再每次都“全量算一遍注意力”，而是每次只计算“状态 + 增量（Delta）更新”。

这里的Delta（增量）是关键。

在保持模型能力的同时，显著降低长上下文和连续推理的计算成本——思路有点像 MoE 架构。

3 One more thing

在测试 Kimi K2.5 的视觉理解能力时，我们索性出了一道“狠题”。

——甩过去一段动画，让它先吃透画风和叙事方式，再换个主题，重写一支动画脚本。说实话，这活儿对专业动画师来说都不轻松，我们还特意把 “Agent 集群”模式打开了。

结果最有意思的不是生成内容本身，而是页面最底下那行小字：

“这个任务 Kimi 自己就能完成，不需要 Agent 集群。部分额度已退回。”

体验传送门：

https://www.kimi.com/

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.