背景
有的网站不需要搜索引擎来爬取,大量的蜘蛛爬取占用了服务器资源。
修改配置
在nginx.conf中的server层加入以下内容:
#禁止Scrapy等爬虫工具的抓取
if ($http_user_agent ~* "Scrapy|Sogou web spider|Baiduspider|bingbot|Bytespider|SemrushBot|YisouSpider") {
return 403;
}
添加后重启nginx
测试
curl的-A 可以让我们随意指定自己这次访问所宣称的自己的浏览器信息
#curl -I -A "BaiduSpider" www.test.com (模拟浏览器头信息)