本书未发布

1.2. 爬虫犯法吗?

未匹配的标注

爬虫犯法吗?

很多人都问过我“爬虫到底犯法不?”爬虫技术本身是不犯法的,犯不犯法还要看使用者有没有使用到位。如果使用者毫无节制的对一个网站爬虫,发起大量请求,造成网络攻击,那就会算犯法。所以说:

法律制度

在早期的互联网时代,针对爬虫的法律制度还没诞生,但是随着大数据时代的来临,爬虫也随之而来。相关的法律制度也发明了。

“根据《网络技术安全》第四章第四十一条,网络运营者收集、使用个人信息,应当遵循合法、正当、必要的原则,公开收集、使用规则,明示收集、使用信息的目的、方式和范围,并经被收集者同意。&oq=第四十一条网络运营者收集、使用个人信息,应当遵循合法、正当、必要的原则,公开收集、使用规则,明示收集、使用信息的目的、方式和范围,并经被收集者同意。网络运营者不得收集与其提供的服务无关的个人信息,不得违反法律、行政法规的规定和双方的约定收集、使用个人信息,并应当依照法律、行政法规的规定和与用户的约定,处理其保存的个人信息。网络运营者不得收集与其提供的服务无关的个人信息,不得违反法律、行政法规的规定和双方的约定收集、使用个人信息,并应当依照法律、行政法规的规定和与用户的约定,处理其保存的个人信息。”
这也是为什么这本书叫《Python爬虫 从入门到入狱》。

robots协议

很多网站都逃不过被爬虫的惨案,有些网站甚至被爬破产了(真实事件),这时候robots协议就有了。

什么是robots协议?

robots协议是一个放在网站上的一个.txt文本文件,通常放的位置为xxxx.com/robots.txt 。robots协议会告诉我们哪些数据不能爬取,哪些操作机器人不能做。让我们拿bing的robots协议
来做一个例子。
爬虫犯法吗?

  • user-agent,也就是表示用户身份,Twitterbot就代表推特爬虫机器人,baidubot就是百度爬虫机器人。

  • Allow 可以爬取的数据。

  • Disallow 不可以爬取的数据

robots协议有什么用?

robots协议是一个供爬虫工程师参考的一份文本文件,但是很可惜,很少人会遵守这份协议。于是,许多网站都做了反爬准备,之后的文章会讲到遇到反爬的解决办法。

最后想对大家说一句:“合理爬虫,人人有责!”

《Python爬虫 从入门到入狱》原作者:Learnku用户@Coolest

本文章首发在 LearnKu.com 网站上。

上一篇 下一篇
讨论数量: 0
发起讨论 只看当前版本


暂无话题~