网络爬虫一方面可以给网站带来一定的流量,便于搜索引擎收录,利于用户搜素,同时也会给服务器带来一定的压力,在网络爬虫对网站内容进行收录时,会引起服务器负载高涨。有没有什么方法既不阻止网络爬虫对网站内容进行收录,同时对其连接数和请求数进行一定的限制呢?
先来普及下robots.txt协议:
robots.txt写法: 使用robots.txt可以来控制某些内容不被爬虫收录,保证网站敏感数据和用户信息不被侵犯。
对爬虫进行限速处理实现方法如下:
测试:
(责任编辑:IT) |