关于豆瓣同城使用了代理 ip 还被反爬问题
环境:win10 scrapy
我自己的反反爬设置:
1.置了阿布云的动态代理ip池和随机的user-agent。
2.settings.py里设置了USER_AGENT=本机的user-agent,
ROBOTSTXT_OBEY = False,
CONCURRENT_REQUESTS = 5,
DOWNLOAD_DELAY = 60/40.0,
CONCURRENT_REQUESTS_PER_IP = 40,
COOKIES_ENABLED = False,
RANDOMIZE_DOWNLOAD_DELAY = False,
描述:
用 http://icanhazip.com/ 这个网站测试过ip地址确实在动态改变。
第一次用阿布云的一个隧道服务器正常爬取了100多个数据,再次进行爬取的时候,重新购买了一次阿布云,爬了一会儿发现本机的ip被豆瓣封了,需要登录解除异常,爬虫返回的日志中大量返回302,如图
问题:
因为需要大量的豆瓣同城的数据,怎么解决这个反爬问题?
推荐文章: