网易首页 > 网易号 > 正文 申请入驻

robots协议怎么写配置,robots文件怎么写,robots协议的用途

0
分享至

User-agent: * (指令针对所有搜索引擎,*代表所有)
Disallow: /photos(不允许抓取photos这个目录内容)
Allow: /photos/car.jpg(只有car.jpg这个图片可以抓取)User-agent: *
Disallow: /(第一段)

详解robots协议文件的相关问题,主要谈谈robots.txt是什么、配置怎么写、有什么作用;以及,怎么给自己的网站合理配置robots.txt规则。

什么是robots.txt协议

简单地说,robots协议就是网站空间目录里的一个txt文件。通过在这个文件里添加相应的规则内容,我们可以规定搜索引擎蜘蛛如何爬取网站页面。robots.txt是目前几乎所有主流搜索引擎共同遵守的一项互联网准则,让网站管理者可以掌控自己网站在搜索引擎上的展现。实质上,robots的规则主要就是两种指令:Allow指令(允许抓取)和Disallow指令(禁止抓取)。

也就是说,robots.txt协议文件其实是给搜索引擎准备的。搜索引擎比如谷歌的蜘蛛来到网站,首先就会检查网站的robots规则,然后根据这些规则的指导进行爬取工作。所以,一般网站都是需要配置合适的robots规则,尤其是网站的某些类目或者页面不想被搜索引擎抓取到。如果网站没有配置robots文件,那就相当于默认全站可抓取。

robots.txt的指令规则

上文已经提到,robots.txt主要指令就是Allow和Disallow这两个。但,要组成一个完整的robots配置,还需要有其他指令的加入。接下来,我们逐一看下robots.txt的指令规则。

User-agent指令

任何指令都要有命令对象,robots规则指令也是如此。可能有人会疑惑:命令的对象不就是搜索引擎爬虫吗?是的,robots.txt就是指导这些爬虫的抓取;但是,全球的搜索引擎这么多,如果有些内容你就想给谷歌抓取,而不想给百度抓取,那怎么办呢?所以,User-agent指令还是必不可少的,通过它我们可以规定robots规则的限定对象。比如,对象限定为谷歌,就可以用:User-agent: Googlebot,Googlebot就是谷歌的爬虫代号,其他主要的搜索引擎爬虫代号还有:

搜索引擎

蜘蛛代号

谷歌

Googlebot

百度

Baiduspider

360搜索

360Spider

搜狗

Sogou News Spider

必应

bingbot

MSN

msnbot

一个搜索引擎可能不止有一种蜘蛛,比如谷歌,除了常见的Googlebot外,它还有Googlebot-Image之类的爬虫,专门用于爬取图片等内容。如果你想了解所有搜索引擎的爬虫代号,可以查看这里。

Disallow指令

Disallow指令就是规定网站中哪些内容不想被搜索引擎抓取。举几个例子:

Disallow: /folder/(folder这个网站目录,包括里面所有页面不要抓取)

Disallow: /file.html(不要抓取网站中file.html这个页面)

Disallow: /image.png(不要抓取image.png这个图片)

Allow指令

和Disallow指令的作用相反,Allow指令告诉搜索引擎哪些页面可以被抓取,这个指令一般是配合着Disallow指令发挥作用,毕竟如果没有Disallow,那就已经默认可以抓取了。同样,举个例子:

注意:括号里都是讲解内容,真正使用这些指令规则时,不能加括号。

Crawl-delay指令

这个指令可以规定搜索引擎抓取页面前需要等待一段时间。比如:Crawl-delay: 100,意味着需要等待100毫秒。这个指令一般用不到,而且谷歌不会执行这个指令。

Sitemap指令

Sitemap指令就是告诉搜索引擎网站的Sitemap站点地图在什么位置(一般位于网站根目录中)。比如,我们网站的robots.txt文件就含有sitemap指令,大家可以自行查看:www.yundianseo.com/robots.txt

只有Google,Ask,Bing和Yahoo支持此项指令。

模糊匹配指令

在实际应用中,有时候我们需要制定某类文件或者页面不被谷歌等搜索引擎抓取。这时,就需要应用到模糊匹配指令。robots规则中的匹配指令是两个符号:*和$。符号*前面也有说过,是代表全部的意思;符号$则是用于结尾,代表符合结尾格式的地址。例如:Disallow: /*.gif$,表示不抓取网站中结尾格式为gif的所有文件。

常用的robots.txt配置

ROBOTS.TXT规则

功能说明

User-agent: *

Disallow: /

禁止所有搜索引擎抓取网站任何页面;一般用于网站尚未建设完成时使用,屏蔽搜索引擎抓取。

User-agent: *

Disallow: /abc/

禁止所有搜索引擎抓取abc这个目录内容;比如,wordpress网站需要禁止抓取wp-admin这个管理登录的目录。另外,不要使用robots规则限定你的隐私内容,仍然有可能泄露。隐私页面最好还是设置为普通用户不可见最为安全。

User-agent: Googlebot

Allow: /

User-agent: *

Disallow: /

只允许谷歌蜘蛛爬取网站,其他搜索引擎禁止爬取。

User-agent: Googlebot

Disallow: /

User-agent: *

Allow: /

除了谷歌不可以抓取,其他搜索引擎均可爬取网站。

User-agent: *

Disallow: /abc.html

禁止所有搜索引擎抓取abc这个html页面;此规则可用于禁止抓取网站中某个页面。

User-agent: *

Disallow: /images/abc.jpg

禁止所有搜索引擎抓取网站images目录下的abc这个jpg图片。禁止抓取某个页面或者图片等文件,需要正确填写所在位置。

User-agent: Googlebot

Disallow: /*xls$

禁止谷歌抓取网站中所有以xls为结尾格式的文件。

使用robots.txt的注意事项

  • 如果使用robots.txt协议,首先一点就是确保配置正确,不要影响到正常内容的抓取。网站如果长时间没被谷歌收录,有可能就是因为robots.txt配置错误导致的。
  • 为了方便搜索引擎查找、识别,robots.txt一般放在网站的根目录中最好,也就是空间最开始的文件目录里。
  • robots文件,必须是txt格式结尾,并且全称为robots.txt,不要大些首字母变成Robots.txt或者其他任何形式。
  • robots.txt规则主流搜索引擎都会遵守,但不排除有些网站或者软件的爬虫会忽视这个文件,比如一些内容采集软件就不会遵守规则,所以不要指望robots规则可以把这类软件拦截在外。
  • 如果有些页面信息是比较私人的或者含有隐私,不要把它添加到robots文件内容中,虽然搜索引擎不会抓取,但访客是可以直接打开robots文件,查看到该页面地址的。
  • 如果一个网站有二级域名,那么二级域名的网站也是需要配置robots.txt文件的,如果它含有不想被抓取的内容,主域名配置的robots文件对二级域名不起作用。
  • robots.txt最好含有sitemap地址,能够帮助搜索引擎更快地找到网站的站点地图。站点地图利于搜索引擎的抓取和收录,网站如果还没有sitemap,可以参照此篇文章进行创建:Sitemap站点地图生成工具

如何制作robots.txt文件

制作robots.txt文件的方法很简单:在电脑桌面创建一个txt文本,然后命名为robots即可。书写规则内容时,注意:

  1. 每行一个规则指令,如果是两段规则,中间空一行;
  2. 使用英文输入法,不要使用中文输入法,: 号后面空一格。

示例:

User-agent: Googlebot
Allow: /(第二段)

如何提交robots.txt给谷歌

网站中已经有了robots.txt文件,可以通过robots测试工具提交给Google,让其尽快识别。打开工具:https://www.google.com/webmasters/tools/robots-testing-tool,选择资源(先得到谷歌站长工具中验证网站所有权):

测试无误后,点击提交:

Tags:robots.txtrobots协议

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
报复一个人最狠的方法,不是翻脸,不是打压,而是佛家三句话

报复一个人最狠的方法,不是翻脸,不是打压,而是佛家三句话

瓜哥的动物日记
2026-02-14 00:59:40
金价2月20日行情已清,春节过后,金价可能更大变盘?

金价2月20日行情已清,春节过后,金价可能更大变盘?

小陆搞笑日常
2026-02-21 03:00:15
致命一击!俄罗斯,命脉被掐住了!

致命一击!俄罗斯,命脉被掐住了!

大嘴说天下
2026-02-18 19:48:42
曼城连续21次英超主场对纽卡保持不败,且近16场全胜

曼城连续21次英超主场对纽卡保持不败,且近16场全胜

懂球帝
2026-02-21 00:38:56
炸锅!曼联疯了?5000 万撬皇马弃子,利物浦传奇恐投死敌

炸锅!曼联疯了?5000 万撬皇马弃子,利物浦传奇恐投死敌

澜归序
2026-02-21 03:30:26
中国电子战能力如何?美媒:中国电子战编队能威胁美国水面舰艇

中国电子战能力如何?美媒:中国电子战编队能威胁美国水面舰艇

阿芒娱乐说
2026-02-21 00:36:12
小妈祖被硬拉上轿,长辈拦不住,这句老话刺痛了多少人?

小妈祖被硬拉上轿,长辈拦不住,这句老话刺痛了多少人?

娱乐圈见解说
2026-02-20 10:01:15
什么是低端家庭,在一起吃一顿饭就知道了

什么是低端家庭,在一起吃一顿饭就知道了

木言观
2026-02-17 21:29:51
活得好不等于活得久

活得好不等于活得久

记忆承载
2026-02-20 11:23:15
放心吧,我们不是日本,也不会有“失去的三十年”

放心吧,我们不是日本,也不会有“失去的三十年”

六爷阿旦
2026-01-19 17:10:26
比福建舰还大!4艘万吨巨船同时出坞,美这才明白,输给中国了

比福建舰还大!4艘万吨巨船同时出坞,美这才明白,输给中国了

温读史
2026-01-09 23:42:22
换手机无需太贵!“百里挑一”的3款手机,512GB价格“更香了”

换手机无需太贵!“百里挑一”的3款手机,512GB价格“更香了”

小蜜情感说
2026-02-21 02:52:05
当之无愧!赵心童6:3击败肖恩墨菲,晋级四强,连轰破百单杆

当之无愧!赵心童6:3击败肖恩墨菲,晋级四强,连轰破百单杆

二爷台球解说
2026-02-21 00:22:46
丧夫的翁帆面相都变了,字字不提杨振宁,却句句戳进自己的心窝里

丧夫的翁帆面相都变了,字字不提杨振宁,却句句戳进自己的心窝里

趣味萌宠的日常
2025-12-29 10:21:55
四川成都一佳人好漂亮, 身高169cm,体重48kg 美的让人移不开眼

四川成都一佳人好漂亮, 身高169cm,体重48kg 美的让人移不开眼

喜欢历史的阿繁
2026-02-07 14:21:17
被索赔22万后续!完整监控流出,真相曝光不简单,赔偿是跑不掉了

被索赔22万后续!完整监控流出,真相曝光不简单,赔偿是跑不掉了

宝哥精彩赛事
2026-02-20 12:49:50
手气爆棚!河南52岁男子打麻将连续自摸胡牌,兴奋过度,突然栽倒牌桌,送医时血压飙升至201/115mmHg

手气爆棚!河南52岁男子打麻将连续自摸胡牌,兴奋过度,突然栽倒牌桌,送医时血压飙升至201/115mmHg

芒果都市
2026-02-20 16:07:55
李嘉诚:现在不买房,三年后是捡漏还是被甩下车?句句大实话!

李嘉诚:现在不买房,三年后是捡漏还是被甩下车?句句大实话!

童童聊娱乐啊
2026-02-21 02:59:35
中国收到以色列警告,称若协助伊朗发展核武器,将面临灾难性后果

中国收到以色列警告,称若协助伊朗发展核武器,将面临灾难性后果

纪中百大事
2026-02-16 11:29:14
纽约时报承认了:生活在中国,就像生活在未来世界

纽约时报承认了:生活在中国,就像生活在未来世界

王晓爱体彩
2026-02-20 21:12:11
2026-02-21 04:15:00
森福壹贰叁
森福壹贰叁
分享创业、经营、投资中的点滴心得,让大家一起进步!
9文章数 3关注度
往期回顾 全部

科技要闻

莫迪举手欢呼 两大AI掌门人却握拳尴尬对峙

头条要闻

贝加尔湖遇难者遗体已被发现 涉事司机系私下接单

头条要闻

贝加尔湖遇难者遗体已被发现 涉事司机系私下接单

体育要闻

金牌夫妻!王心迪徐梦桃赛后拥抱太甜了

娱乐要闻

《将门独后》开拍,王鹤棣孟子义主演

财经要闻

特朗普全球关税被推翻!有何影响?

汽车要闻

比亚迪的“颜值担当”来了 方程豹首款轿车路跑信息曝光

态度原创

亲子
本地
时尚
公开课
军事航空

亲子要闻

父母能有多阴阳怪气?网友:我对象嘴巴大,我爸叫人家鲶鱼。

本地新闻

春花齐放2026:《骏马奔腾迎新岁》

冬季羽绒服是最“受捧”的单品,这样选款和搭配,舒适耐看

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

消息人士透露:美军赴黄海活动 解放军有效应对处置

无障碍浏览 进入关怀版