Nginx通过UserAgent屏蔽网页爬虫

目录隐藏

背景

有的网站不需要搜索引擎来爬取，大量的蜘蛛爬取占用了服务器资源。

在nginx.conf中的server层加入以下内容：

#禁止Scrapy等爬虫工具的抓取
if ($http_user_agent ~* "Scrapy|Sogou web spider|Baiduspider|bingbot|Bytespider|SemrushBot|YisouSpider") {
    return 403;
}

添加后重启nginx

curl的-A 可以让我们随意指定自己这次访问所宣称的自己的浏览器信息

#curl -I -A "BaiduSpider" www.test.com   （模拟浏览器头信息）