【人工智能】AI阅读是什么？揭秘生成引文的隐秘机制|学术|引用率|百科全书|ai阅读|超级智能

【人工智能】AI阅读是什么？揭秘生成引文的隐秘机制

2025-07-25 18:54:58　来源: 七元宇宙

广东举报

分享至

随着生成式人工智能重塑数字格局，一个新的问题正在内容创作和发现的核心领域浮现：人工智能究竟在阅读什么？ Muck Rack 开展了一项开创性研究，题为《人工智能在阅读什么》（来自Generative Pulse），分析了来自主流人工智能系统的超过100 万条引文，其中包括 OpenAI 的 ChatGPT（4o 和 4o-mini）、谷歌的 Gemini（Flash 和 Pro）以及 Anthropic 的 Claude（Sonnet 和 Haiku），旨在揭示这些模型在生成响应时使用的链接背后隐藏的动态。

这些发现不仅具有启发性，而且对于新闻业、企业传播、搜索引擎优化或品牌战略领域的任何人来说都具有变革意义。

引用不仅仅是附加功能——它们会重塑人工智能行为

任何沉浸在人工智能世界的人都会明白，简单地启用或禁用引用功能就会改变答案本身。当引用关闭时，人工智能会更加依赖静态训练数据。但当引用打开时，模型会生成截然不同的输出，这直接受到它们所提取的实时数据源的影响。

关键示例：当被问及美国职棒大联盟（Major League Baseball）最差的球队时，一个禁用了引用功能的AI提到了1962年的大都会队。但启用引用功能后，它更新了答案，加入了2024年的芝加哥白袜队，该队以41胜121负的战绩创造了赛季纪录——并且明确引用了CBS体育的报道。

赚取媒体的主导地位

超过95% 的引用来源来自非付费媒体。其中包括：
27%新闻内容（例如路透社、美联社、金融时报）
18% 的政府/非政府组织网站
13%学术或研究来源
10%聚合器/百科全书平台，如 Wikipedia 或 Visual Capitalist

相比之下，付费或软文内容的引用量不到 5%，这清楚地表明人工智能模型系统性地对营销驱动的内容存在偏见。

近期偏差：为何新内容胜出

新鲜度至关重要——尤其对于 OpenAI 的模型而言。在新闻内容方面，ChatGPT 56% 的引用是在过去 12 个月内发布的，而Claude 的这一比例仅为36% 。这种倾向被称为“近因偏差”，指的是即使旧来源可能仍然准确或相关，人们仍然更倾向于使用较新、最近发布的来源。

在生成式人工智能的背景下，近因偏差意味着语言模型（尤其是像 ChatGPT 这样与实时数据相关的模型）更有可能引用和信任新发布的材料，尤其是在回答涉及时事、新兴技术或政策变化的查询时。对于诸如“门诊治疗的最新进展”或“近期录音创新”等时间敏感的提示，该模型会高度重视过去几个月发布的内容，认为这些内容包含更相关或更新的见解。

对于内容创作者和品牌策略师来说，这是一个至关重要的洞察：如果你的内容已经过时——哪怕只过时了一年——它出现在AI生成的答案中的可能性就会大大降低。保持内容新鲜不仅仅是为了提升SEO，更是在AI时代提升曝光度的关键。

不同的提示触发不同的来源

AI 模型不会随机引用来源——它们会根据问题的类型进行选择。不同的提示风格会导致引用不同类型的来源：

事实查找和百科全书查询往往取自维基百科和大英百科全书等静态参考网站，依赖于成熟但通常较旧的信息。
近期事件问题通常会引发美联社、路透社或Axios等主要新闻编辑室的引用，其中速度和时效性是关键。
建议或征求意见的提示将模型转向更具动态和对话性的来源，如博客、论坛或Reddit或Medium等平台。
学术或研究导向的任务导致人工智能引用期刊、预印本服务器（如arXiv）或政府支持的存储库（如PubMed或NCBI）。
创意请求或分步说明经常会显示来自Quora或小众技术论坛等平台的用户生成内容、非正式的操作方法或社区讨论主题。

这种变化意味着问题的表述方式会直接影响哪些领域得到提升，哪些领域被抛弃。

例如，与 ChatGPT 或 Gemini 相比，Claude 引用路透社等主要媒体的可能性要小得多，引用路透社的频率比 ChatGPT 低 50 倍。

权威和领域很重要——但并非一致

虽然权威媒体占据主导地位，但它们并非唯一的参与者。在引用率最高的来源中，只有 15%出现在多个行业的前 10 名中。这意味着针对特定领域的内容会受到奖励。例如：

在金融领域，Bankrate和NerdWallet等来源受到青睐。
在医疗保健领域，CDC.gov和NIH.gov等政府信息来源占主导地位。
在技术领域，Udemy、Coursera和Medium等学习平台名列前茅。

在第 15 页，视觉热图显示Claude表现出最特定的领域多样性，经常选择行业独特的来源，而 ChatGPT 和 Gemini 则倾向于更多地依赖通用媒体。

行业洞察：人工智能在各行业中的引用情况

金融与保险

新闻业占引用量的 37%，高于任何其他行业。
克劳德的前 10 个来源有90% 是独一无二的，这表明他进行了更深入的利基探索。

卫生保健

政府和非政府组织网站的引用率为 18%，是跨行业平均水平的两倍多。
双子座 (Gemini) 在该领域的资源多样性方面处于领先地位。

旅游/航空

令人惊讶的是，学术引用几乎不存在（仅 0.7％）。
FAA.gov和IATA.org等来源占据主导地位，对新闻媒体的依赖较少。

零售和电子商务

维基百科等聚合网站的引用率低于其他行业（36% 对 28%）。
克劳德引用了最小众的内容。

媒体/娱乐

新闻业再次以 37% 的得票率领先，其中TVTechnology和Radioking等小众平台被 Claude 频繁提及。

技术

几乎没有使用百科全书或学术资源。
Medium、Coursera和SproutSocial等平台表现突出，反映出对基于实践者的知识的倾向。

对通讯和 SEO 团队的影响

本报告的结果表明，生成式引擎优化 (GEO)正变得与传统 SEO 同等重要。人工智能不仅仅是汇总静态数据库，它还能实时主动链接到相关来源。而这些链接受到以下因素的影响：

新近度：定期更新您的内容。
域名权威：建立反向链接和信任。
利基相关性：创建适合您的行业的内容，而不仅仅是一般主题。
内容类型：专注于赢得媒体和信息内容，而不是纯粹的营销页面。

这改变了内容营销人员、公关专业人士和出版商的考量。如果你的目标是出现在AI生成的搜索结果中，那么你必须创作出AI认为有价值的内容，而不仅仅是用户或谷歌认为有价值的内容。

结论

被人工智能解读（或忽略）的后果

本报告强调了网络信息呈现方式的根本性转变：人工智能模型不仅检索内容，还会选择性地整理内容。这种整理正在重新定义数字时代的可见性。

对于出版商、研究人员和品牌而言，被人工智能引用意味着跻身下一代搜索领域。它将您的内容呈现给那些可能永远不会访问您的网站但信任引用该内容的模型的用户。被引用的来源将得到放大。而那些没有被引用的来源——无论质量如何——都可能被完全排除在讨论之外。

这种转变催生了新的赢家和输家。高权威的媒体和及时的、赢得式的媒体受到青睐。与此同时，付费内容、更新缓慢的博客或不太知名的声音往往无人问津——不仅是读者，还有塑造人们视野的体系。

随着生成人工智能在知识传递方式中继续发挥核心作用，关键问题不再是如何在搜索中排名，而是：如何成为人工智能认为值得引用的一部分？

免责声明：

本文所发布的内容和图片旨在传播行业信息，版权归原作者所有，非商业用途。如有侵权，请与我们联系删除。所有信息不构成任何投资建议，加密市场具有高度风险，投资者应基于自身判断和谨慎评估做出决策。投资有风险，入市需谨慎。

设为星标避免错过

虚拟世界没有旁观者，每个点赞都是创造历史的像素

关注我，一起探索AWM⁺

2025-07-04

2025-07-03

2025-07-02

商业赞助

点击下方 “目录” 阅读更多

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.