为什么robots禁止抓取了但搜索引擎还会抓取

2024-03-05 14:59 小编

严格来说,robots.txt 文件限制了搜索引擎爬虫的抓取行为,搜索引擎通常会遵循这些规则。目前,百度搜索引擎会继续抓取受 robots.txt 控制的网页,但不会保留这些网页的快照。其他搜索引擎也基本上采取类似的策略。


在百度百科里面有这么一条:robots协议并不是一个规范,而只是约定俗成的,所以并不能保证网站的隐私。


设置robots禁止抓取主要是基于两个原因:第一个是新站调试期间,不想让搜索引擎抓取;第二个就是网站下某些目录页面,不想被搜索引擎抓取。对于第一种,如果完全不想让搜索引擎抓取,你建议在本地测试,或者是采用其他的域名绑定线上测试,测试没有问题之后再绑定目标域名。至于第二种,其实是没有办法的,因为如果搜索引擎不按照robots规则,那我们似乎也没有什么好的办法阻止,如果搜索引擎收录了这些限制抓取的页面,只能去投诉快照了。

robots

但是大家也要注意,搜索引擎抓取robots文件限制的页面,这对于网站来说并不会造成很大的影响。原则上说这不会浪费抓取份额,除了网站首页以后,也很少发现会收录robots限制抓取的内页。所以,大家也不要太过担心,搜索引擎想抓就让它去抓,如果收录了,就去投诉申请删除。


有些朋友可能会担心安全问题,需要明确的是搜索引擎蜘蛛只是工作工具,本身并不具有恶意。它们只是按照规则执行任务。大家不必过分担心搜索引擎的行为,特别是当网站内容并不包含敏感信息时,在不影响网站优化的情况下,允许蜘蛛抓取也不会带来损失。请大家保持镇定,无需惊慌!


关于为什么robots禁止抓取了但搜索引擎还会抓取的问题,本文就简单的说这么多。总之来说,理论上搜索引擎还是会遵循robots规则的,不会胡乱收录这些禁止收录的页面。


Tag: 为什么 什么 搜索引擎 搜索
在线咨询 拨打电话

电话

13363039260

内部绝密传真282期

微信二维码