关于豆瓣同城使用了代理 ip 还被反爬问题

环境:win10 scrapy

我自己的反反爬设置:

1.置了阿布云的动态代理ip池和随机的user-agent。
2.settings.py里设置了USER_AGENT=本机的user-agent,
ROBOTSTXT_OBEY = False,
CONCURRENT_REQUESTS = 5,
DOWNLOAD_DELAY = 60/40.0,
CONCURRENT_REQUESTS_PER_IP = 40,
COOKIES_ENABLED = False,
RANDOMIZE_DOWNLOAD_DELAY = False,

描述:

http://icanhazip.com/ 这个网站测试过ip地址确实在动态改变。
第一次用阿布云的一个隧道服务器正常爬取了100多个数据,再次进行爬取的时候,重新购买了一次阿布云,爬了一会儿发现本机的ip被豆瓣封了,需要登录解除异常,爬虫返回的日志中大量返回302,如图

问题:

因为需要大量的豆瓣同城的数据,怎么解决这个反爬问题?

最佳答案

我自己尝试了一下,改了DOWNLOAD_DELAY = 2,RANDOMIZE_DOWNLOAD_DELAY 删了,其他不变,就能以龟速进行爬取,而且目前本机ip还是正常的。

4年前 评论
讨论数量: 5

你看看代理ip有没有自己进行一个自动切换,如果没有加个random.choice。你再检查一下是不是把代理ip加进了user agent,headers。代理ip

4年前 评论
Eugene1005 (楼主) 4年前
Coolest (作者) 4年前

关掉USER_AGENT,然后在middlewares里面使用随机UA试试

4年前 评论

我自己尝试了一下,改了DOWNLOAD_DELAY = 2,RANDOMIZE_DOWNLOAD_DELAY 删了,其他不变,就能以龟速进行爬取,而且目前本机ip还是正常的。

4年前 评论
baitongda

学习反爬技术

3年前 评论

讨论应以学习和精进为目的。请勿发布不友善或者负能量的内容,与人为善,比聪明更重要!