什么是网络爬虫，它是如何工作的？|搜索引擎|谷歌|元数据

什么是网络爬虫，它是如何工作的？

分享至

您是否曾经在 Google 上搜索过某些东西并想知道，“它怎么知道去哪里找？” 答案是“网络爬虫”，它搜索网络并将其编入索引，以便您可以轻松地在线查找内容。我们会解释的。

搜索引擎和爬虫

当您在 Google 或Bing等搜索引擎上使用关键字进行搜索时，该网站会筛选数万亿个页面以生成与该术语相关的结果列表。这些搜索引擎究竟如何将所有这些页面存档，知道如何查找它们并在几秒钟内生成这些结果？

答案是网络爬虫，也称为蜘蛛。这些是自动程序（通常称为“机器人”或“机器人”），可以“爬行”或浏览网络，以便将它们添加到搜索引擎中。这些机器人索引网站以创建最终出现在搜索结果中的页面列表。

爬虫还会创建这些页面的副本并将其存储在引擎的数据库中，这使您几乎可以立即进行搜索。这也是搜索引擎经常在其数据库中包含网站缓存版本的原因。

站点地图和选择

格里博耶多夫/Shutterstock

那么，爬虫如何挑选要爬取的网站呢？嗯，最常见的情况是网站所有者希望搜索引擎抓取他们的网站。他们可以通过请求谷歌、必应、雅虎或其他搜索引擎来索引他们的页面来实现这一点。这个过程因发动机而异。此外，搜索引擎经常通过跟踪 URL 在其他公共网站上链接的次数来选择流行的、链接良好的网站进行爬网。

网站所有者可以使用某些流程来帮助搜索引擎索引他们的网站，例如
上传站点地图。这是一个文件，其中包含属于您网站的所有链接和页面。它通常用于指示您希望将哪些页面编入索引。

一旦搜索引擎已经抓取过一个网站，他们会自动再次抓取该网站。频率根据网站的受欢迎程度以及其他指标而有所不同。因此，网站所有者经常更新网站地图，让引擎知道要索引哪些新网站。

机器人和礼貌因素

德维诺/Shutterstock

如果网站不希望其部分或全部页面出现在搜索引擎上怎么办？例如，您可能不希望人们搜索仅限会员的页面或看到您的404 错误页面。这就是抓取排除列表（也称为 robots.txt）发挥作用的地方。这是一个简单的文本文件，指示爬虫从索引中排除哪些网页。

robots.txt 重要的另一个原因是网络爬虫可以对网站性能产生重大影响。由于爬虫实际上是在下载您网站上的所有页面，因此它们会消耗资源并导致速度变慢。他们在不可预知的时间到达并且未经批准。如果您不需要重复索引您的页面，那么停止爬虫可能有助于减少您的一些网站负载。幸运的是，大多数爬虫会根据网站所有者的规则停止爬取某些页面。

元数据魔术

在 Google 中每个搜索结果的 URL 和标题下，您会找到该页面的简短描述。这些描述称为片段。您可能会注意到，Google 中的网页片段并不总是与网站的实际内容一致。这是因为许多网站都有所谓的“元标签”，这是网站所有者添加到其页面的自定义描述。

网站所有者经常想出诱人的元数据描述，让您想要点击网站。谷歌还列出了其他原$APPEND本信息，例如价格和库存情况。这对于那些运行电子商务网站的人特别有用。

您的搜索

网络搜索是使用互联网的重要组成部分。搜索网络是发现新网站、商店、社区和兴趣的好方法。每天，网络爬虫都会访问数百万个页面并将它们添加到搜索引擎中。虽然爬虫有一些缺点，比如占用网站资源，但它们对网站所有者和访问者来说都是无价的。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.