当前位置:首页 > 秒收录 > 文章资讯

机器人协议的详细编写 正确编写机器人

机器人协议的作用是告诉搜索引擎爬虫哪些是允许访问的,哪些是不允许访问的。当搜索蜘蛛访问一个站点时,它会首先检查该站点的根目录中是否存在robots.txt。如果存在,搜索机器人会根据文件内容确定访问范围;如果文件不存在,所有搜索蜘蛛将能够访问网站上不受密码保护的所有页面。

robots协议详细写法,正确书写robots.txt

第一,比如robots.txt禁止爬取某个目录或网站后台,但其他可以爬取。

用户代理: *

Disallow: /abcdef/

解释

1.*这里代表各种搜索引擎,而*是通配符

2.禁止对目录下的目录进行爬网。网站背景不想被爬,可以这样写

如果你害怕在后台知道完整的地址,可以写为Disallow: /abc*。在这种情况下,你只需要写几个字符,不需要写它后面所有完整的字符。这意味着禁止从abc开始对目录和文件进行爬网。

第二,相关机器人编写指令

不允许: /abc此处的定义是禁止对abc的整个目录进行爬网

Disallow: /abc/*。asp意味着访问所有带后缀的网址(包括子目录)。禁止在/abc/目录中使用“asp”。

不允许: /*:*禁止访问网站中的所有动态页面

不允许:png$禁止抓取所有图片。网页上的png格式

不允许:/AB/ADC . html禁止抓取adc.html AB文件夹下的所有文件

Allow: /cgi-bin/这里的定义是允许对cgi-bin目录下的目录进行爬网

这里定义的Allow: /tmp允许对tmp的整个目录进行爬网

Allow:asp$只有带后缀的网址。允许访问asp"。

Allow:jpg$允许抓取网页和jpg格式的图片

第三,如果屏蔽所有蜘蛛,可以这样写。

用户代理: *

不允许: /

说到robots.txt协议阻断蜘蛛爬行,相信大家都应该知道淘宝网站的robots.txt文件中有限制指令(限制搜索引擎爬行),系统无法提供该页面的内容描述。

这要从2008年开始,当时马云做了一个霸气的决定,就是淘宝屏蔽了百度蜘蛛在robots.txt协议中的爬行,这也是淘宝店铺无法通过百度搜索获得流量的原因。马云解释说百度带来的流量是没有转化率的垃圾流量,但真的是这样吗:

原因应该是百度在2008年高调推出百度优亚购物平台,立志成为Z的好电商平台,成为淘宝的直接对手。面对如此强大的对手,马云必须在扩张之前消灭他。

屏蔽百度收录淘宝可以导致消费者在购物前不在百度搜索产品名称,比如牛仔裤、休闲裤、连衣裙等。

因为淘宝强大到足以让消费者将淘宝等同于网购,当用户停止在百度上搜索产品名称时,百度将失去网购市场。

事实证明,马云此举非常成功,让百度失去了网购市场,打败了百度。百度做了,很快就倒闭了。

浏览量:
发布时间:2021-04-03 11:32:33
文章标签:淘宝 目录 蜘蛛
本文地址:https://www.tfgast.com/news/16174207533141.html