#精品
中文网站禁止垃圾爬虫,节省系统资源 定期更新

2025-01-12 0 1,052

互联网上有很多的网络爬虫机器人,它们带着各自的任务到处爬行,但这些爬虫机器人有些是有用的,例如Baiduspider、Googlebot、bingbot等。但还有很多垃圾爬虫,对网站没有任何益处,还耗费资源。

什么是垃圾爬虫?

垃圾爬虫即对网站发展与推广无价值的爬虫。它们一般是一些数据采集爬虫或境外的搜索引擎爬虫。

数据采集爬虫

此类爬虫对网站发展或推广没有任何价值。有些还害处挺大。

数据采集爬虫大致可分为两种,一种是采集数据再转载到另外的网站的,此类爬虫对整个互联网都会造成巨大损害。说难听点就是“小偷”。

另外一种是为了建立某种大数据平台而采集数据的爬虫。例如Semrush,对应的爬虫是SemrushBot,这是一家靠销售数据的公司,但对于被爬行的网站来说,没有任何价值。

境外的搜索引擎爬虫

这个很好理解,它们就和百度、谷歌一样都是搜索引擎蜘蛛爬虫,但由于一些搜索引擎实在太小众,而且对中文网站来说几乎没有引流的效果。

例如:俄罗斯的Yandex搜索引擎,对于的爬虫是YandexBot,它爬行量不小,但对于中文站点引流几乎为0。从价值的角度来说,也可以归类于垃圾爬虫,除非网站有俄语版本或业务是覆盖俄罗斯的网站。

究竟有多少垃圾爬虫?

这个数字没人说得清除,因为互联网上的爬虫在不断增加,也没有任何权威机构做过这方面的统计。但大部分的搜索引擎爬虫还是比较恪守规矩的,不会爬行频率太高而造成网站访问缓慢或崩溃。

本文针对中国境内的中文网站常见的垃圾爬虫做了个初步归纳,并生成robots.txt文件分享给各位站长,方便禁止它们。并定期更新维护(以下版本更新于2022年5月24日)。

User-agent: DataForSeoBot
Disallow: /

User-agent: SemrushBot
Disallow: /

User-agent: MJ12bot
Disallow: /

User-agent: AhrefsBot
Disallow: /

User-agent: Feedly
Disallow: /

User-agent: DotBot
Disallow: /

User-agent: YandexBot
Disallow: /

User-agent: ias-ir
Disallow: /

User-agent: adsbot
Disallow: /

User-agent: barkrowler
Disallow: /

User-agent: Mail.RU_Bot
Disallow: /

User-agent: SEOkicks
Disallow: /

User-agent: ias-va
Disallow: /

User-agent: proximic
Disallow: /

User-agent: CCBot
Disallow: /

User-agent: grapeshot
Disallow: /

User-agent: BLEXBot
Disallow: /

将以上内容保存为robots.txt文件,并上传至网站根目录即可生效。或添加至已有的robots.txt文件内容顶部。

收藏 (0) 打赏

感谢您的支持,我会继续努力的!

打开微信扫一扫,即可进行扫码打赏哦,分享从这里开始,精彩与您同在!
点赞 (0)

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。联系邮箱:3496947425@qq.com

813站长大咖 精品文章 中文网站禁止垃圾爬虫,节省系统资源 定期更新 https://www.813master.cn/1538.html

WordPress极客一枚!无干货,不分享!

常见问题
  • 本站所有资源版权均属于原作者所有,这里所提供资源均只能用于参考学习用,请勿直接商用。若由于商用引起版权纠纷,一切责任均由使用者承担。
查看详情
  • 最常见的情况是下载不完整: 可对比下载完压缩包的与网盘上的容量,若小于网盘提示的容量则是这个原因。这是浏览器下载的bug
查看详情

相关文章

发表评论
暂无评论
官方客服团队

为您解决烦忧 - 24小时在线 专业服务