为什么robots禁止抓取了但搜索引擎还会抓取

2024-03-05 14:59 小编

严格来说，robots.txt 文件限制了搜索引擎爬虫的抓取行为，搜索引擎通常会遵循这些规则。目前，百度搜索引擎会继续抓取受 robots.txt 控制的网页，但不会保留这些网页的快照。其他搜索引擎也基本上采取类似的策略。

在百度百科里面有这么一条：robots协议并不是一个规范，而只是约定俗成的，所以并不能保证网站的隐私。

设置robots禁止抓取主要是基于两个原因：第一个是新站调试期间，不想让搜索引擎抓取；第二个就是网站下某些目录页面，不想被搜索引擎抓取。对于第一种，如果完全不想让搜索引擎抓取，你建议在本地测试，或者是采用其他的域名绑定线上测试，测试没有问题之后再绑定目标域名。至于第二种，其实是没有办法的，因为如果搜索引擎不按照robots规则，那我们似乎也没有什么好的办法阻止，如果搜索引擎收录了这些限制抓取的页面，只能去投诉快照了。

robots

但是大家也要注意，搜索引擎抓取robots文件限制的页面，这对于网站来说并不会造成很大的影响。原则上说这不会浪费抓取份额，除了网站首页以后，也很少发现会收录robots限制抓取的内页。所以，大家也不要太过担心，搜索引擎想抓就让它去抓，如果收录了，就去投诉申请删除。

有些朋友可能会担心安全问题，需要明确的是搜索引擎蜘蛛只是工作工具，本身并不具有恶意。它们只是按照规则执行任务。大家不必过分担心搜索引擎的行为，特别是当网站内容并不包含敏感信息时，在不影响网站优化的情况下，允许蜘蛛抓取也不会带来损失。请大家保持镇定，无需惊慌！

关于为什么robots禁止抓取了但搜索引擎还会抓取的问题，本文就简单的说这么多。总之来说，理论上搜索引擎还是会遵循robots规则的，不会胡乱收录这些禁止收录的页面。

Tag：为什么什么搜索引擎搜索

返回首页上一篇：网站不做友链能防止权重外流吗下一篇：网站用户体验优化的标准是什么

联络方式：

13363039260

微信二维码

您感兴趣的内容

13363039260

为什么robots禁止抓取了但搜索引擎还会抓取

猜你喜欢

热门话题：

联络方式：

13363039260

邯郸找一家做网站比较好的公司

使用 <embed> 标签

返回配送方式标题标签

文档标题

返回购物车商品总数标签

客服QQ