OpenAI打广告后，如何成为爆款？CMU提出AutoGEO解密流量密码|引擎|可见性|openai

OpenAI打广告后，如何成为爆款？CMU提出AutoGEO解密流量密码

2026-03-06 10:52:21　来源: 机器之心Pro

河北举报

分享至

AI 搜索引擎正逐渐取代传统搜索入口，「问 AI」已经成为日常习惯。随着 OpenAI 宣布在 ChatGPT 中引入商业推荐，搜索与内容分发的边界正在被重新定义。在这样的环境下，你的内容能否在 AI 搜索中成为「爆款」，不再只取决于标题和流量，而是更大程度取决于 AI 本身的引用偏好。

你不只是和其他网页争排名，而是在争夺被AI「采纳进答案」的份额。被引用的网页未必最权威、也未必最早发布，它往往只是有更「适合被拼进回答」的写法。

卡内基梅隆大学的研究团队发表在 ICLR 2026 的这篇论文把这种新流量密码解码得很直白。

论文、代码、模型参数、试用 Demo 见

Github。

论文标题：What Generative Search Engines Like and How to Optimize Web Content Cooperatively
https://github.com/cxcscmu/AutoGEO
Github：

01 GEO：从 ranking 变成

「visibility in answers」

传统搜索的基本动作是「检索 + 排序」：给你一串链接，用户自己点击阅读。

生成式搜索引擎（Generative Engines，GE），例如 Google AI Overview、ChatGPT，正在形成新的流量规则。这类引擎的基本动作通常是「检索 + 综合 + 生成」，先检索候选文档，再让 LLM 把内容整合成一段答案，顺带附上引用来源。

这带来一个结构性变化：内容的曝光不再等于「排第几」，而是等于在答案中被写进多少、写在多靠前的位置、以怎样的方式被引用。也因此，过去那种「写得更 SEO」未必等于「更容易被生成式引擎吸收」。

于是出现了Generative Engine Optimization（GEO），优化网页内容以提高被 AI「采纳进答案」的份额。但现有的 GEO 多靠人工启发，比如加统计、关键词策略、强调流畅等，依靠直觉和经验。

更麻烦的是：如果你为了被引用而改写，可能会伤害生成式引擎输出的可靠性与效用。这就是论文不断强调的「合作式（Cooperative）」立场：优化可见性，不能以牺牲引擎效用为代价。

02 AutoGEO：用最大反差样本，

把偏好从玄学变成规则集

这篇论文的核心贡献是提出 AutoGEO：先从大量「可见性有差异」的对比证据里，自动抽取生成式引擎偏好规则；再用这些规则去改写网页，并且把对引擎效用（Generative engine utility，GEU）的影响纳入评估。他们还训练出一个小模型 AutoGEO Mini，推理成本只有 API 方案的 ~0.0071x。

AutoGEO：规则发现 -> 规则驱动改写（API / 小模型）的整体框架。

AutoGEO 的第一步不是改写网页，而是学习「口味」。作者把生成式引擎抽象为：对每个 query，引擎检索候选网页集合，再用 LLM 生成答案。随后计算每个候选网页在答案中的可见性分数。可见性分数沿用 GEO 系列客观指标衡量：不仅看引用字数（Word），还看引用位置权重（Pos），以及综合指标（Overall）。

关键设计在于「证据选择」：对每个 query，他们不做平均对比，而是挑一对可见性差距最大的网页。使用这样一对一个被大量吸收、一个几乎没被用的文档，也就最容易看出偏好差异的「判别特征」。

接下来是四段式 LLM 处理步骤，把海量对比样本压缩成可执行规则：

Explainer：对比两篇文档与最终答案，生成自然语言解释（它们哪里不同、为何可能导致引用差异）。
Extractor：把解释提炼成结构化 insights（偏好因素的要点化表达）。
Merger：把成千上万条 insights 合并成候选规则。为了可扩展性，论文设计了 Hierarchical merging，解决「上万样本 -> 稳定规则」的合并瓶颈。
Filter：过滤掉噪声、歧义与不稳定规则，得到最终规则集。

03 怎么用：

即插即用与超低成本可部署

AutoGEO 的第二步才是改写：让网页更符合规则，从而更可能被生成式引擎引用。

路线 A：AutoGEO API（Prompt-based，即插即用）

把规则集直接嵌入 prompt 的「Quality Guidelines」，调用强 LLM API 如 Gemini、GPT 完成重写。优点是无需训练、部署快；缺点是成本和吞吐受 API 限制。

路线 B：AutoGEO Mini（RL-based 小模型，超低成本可部署）

作者微调小模型做同样的改写，并用强化学习把「可见性提升」与「合作式约束」绑定在一起。

Cold start：先用 AutoGEO API 做 Teacher 生成改写数据，对小模型做 SFT，避免 RL 初期发散。

GRPO 强化学习：同一文档采样一组候选改写，按奖励学习。奖励由三部分组成：Outcome reward（改写是否提升可见性）、Rule reward（是否满足抽取到的规则）以及Semantic reward（语义是否忠实原文）。

04 怎么评估「有效且不作恶」

这篇论文的评估不只刷可见性指标，还显式评估引擎效用（Utility）是否被破坏。论文实验涵盖三个数据集GEO-Bench、Researchy-GEO、E-commerce，分别测试 AutoGEO 在不同领域、不同意图环境中的性能。

同时，实验考虑基于多种前沿 LLM的 generative engine，包含 Gemini、GPT、Claude。

实验指标主要分两类：

GEO：度量网页在答案中的可见性，沿用 GEO 的三类指标 Word / Pos / Overall；

GEU：衡量合作程度，也即答案质量，度量生成式引擎答案与真实答案的相关性、忠实性与质量。

实验结果表明，AutoGEO API 与 AutoGEO Mini 在多个设置下显著提升可见性指标，尤其 AutoGEO API 的提升幅度很大，比最强的基线模型高 50.99%。

三大数据集上的总体对比：AutoGEO API / AutoGEO Mini 显著优于基线。

论文把合作式的承诺落在 GEU 指标上：在大幅提升 GEO 指标的同时，GEU 多数情况下与 Vanilla 接近。

这点很关键：GEO 如果只看「我被引用了多少」，会不可避免把互联网推向噪声与操纵；但如果把 GEU 纳入硬指标，至少为「优化的边界」提供了可讨论的标准。

不同引擎下，可见性（GEO）与效用（GEU）并列对比。

05 发现：规则并不通用

规则既有共识，也有碎片化风险。

如下图 (a)，论文显示不同 LLM 引擎之间偏好规则重叠度不低，说明存在「通用型好写法」；但仍有 engine-specific 的独特规则。更剧烈的是图 (b) domain shift：从开放域数据集迁移到电商意图，规则重叠显著下降；并且电商更偏好 actionable guidance（可操作步骤、建议），研究类更偏好 in-depth explanation（机制、原因、背景的解释深度）。

不同领域 / 任务下的共通规则与独特规则示例：一套写法可能跨域失灵。

这对内容生态是一个直接的信号：未来可能出现「同一页面多版本」，分别迎合不同引擎，甚至按领域意图维护不同写作模板。

06 小结

AutoGEO 给内容方打开了一扇门：偏好可以被抽取、规则可以被更新、改写可以被训练、成本可以被压到极低。

生成式搜索时代的一个新现实是：你写给人看的网页，可能首先要通过「答案机器的消化系统」。下一步怎么走，决定互联网会更透明，还是更像一场模型与模型之间的军备竞赛。接下来真正的竞争不仅在内容方，也在引擎与生态治理：

当大量网页开始「为引用而写」，引擎还能否区分「更有信息量」与「更像会被引用的信息」？

如果平台开始频繁更新偏好以对抗被规模化迎合，是否会出现一场持续的「规则 - 反规则」军备竞赛？

AutoGEO 把 GEO 从玄学推进到工程，也把生成式搜索的下一轮博弈，提前公开了。

作者简介

本文作者来自于卡内基梅隆大学计算机学院语言技术研究所 CX Research Group，指导老师是 Chenyan Xiong 教授。组内研究聚焦于语言模型，主要包括基础模型训练，与深度研究、RAG 有关的信息检索和生成，以及语言模型的应用。团队主页：https://www.cs.cmu.edu/~cxcscmu/。欢迎大家关注我们团队的最新研究成果！

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.