• Ukieweb

    佳的博客

    曾梦想仗剑天涯,后来工作忙没去。

使用Nginx的UA过滤蜘蛛和网络爬虫

通过判断 user agent,在nginx中可以防止一些不想要的访问。

#禁止空UA和各种工具的抓取
if ($http_user_agent ~* "curl|wget|java|httpclient|okhttp|python|WinHttp|WebZIP|FetchURL|node-superagent|FeedDemon|Jullo|Indy Library|Alexa Toolbar|AskTbFXTV|CrawlDaddy|Feedly|Apache-HttpAsyncClient|UniversalFeedParser|ApacheBench|Microsoft URL Control|ZmEu|jaunty |DigExt|heritrix|Ezooms|FlightDeckReports|^$" ) {
     return 444;
}
#禁 蜘蛛
if ($http_user_agent ~* "bot|spider|Mediapartners-Google|Feedfetcher-Google|Yahoo|Youdao|Sogou|ia_archiver")
{
    return 444;
}
  • ~*:表示不区分大小写的正则匹配,通过python关键字就可以过滤掉80%的Python爬虫

  • 444 No Response: Nginx上HTTP服务器扩展。 服务器不向客户端返回任何信息,并关闭连接(有助于恶意软件的威胁)。

  • bot:表示只要ua里面包含 bot这个字符串就拒绝访问。

测试:

[vagrant@localhost gitbook-model]$ curl -I -A "JikeSpider" https://test.com
curl: (52) Empty reply from server


0
0
下一篇:啥是内容分发网络CDN

0 条评论

老佳啊

85后,大专学历,中原人士,家里没矿。

由于年轻时长的比较帅气,导致在别人眼里,我一直不谈恋爱的原因是清高,实则是自己的小自卑。最大的人生目标就是找一个相知相爱相容的人,共度余生。

和人相处时如果能感受到真诚,会非常注重彼此的关系,对别人没有什么心机,即使有利益冲突,一般也会以和为贵,因为在这个世界上,物质的东西,从来不会吸引到我。

特别迷恋那些大山大水,如果现在还能隐居,可能早就去了。对那些宏伟的有底蕴的人文景观比较不感冒。

从事于IT行业,却一直对厨房念念不忘,由于身材魁梧,总觉得自己上辈子是个将军,可惜这辈子没当兵,也不会打架。