分享一个自己用 PHP 写的豆瓣妹子图爬虫,每日更新!
访问地址:
http://www.yanshuo.me/r/18douban
感觉PHP的爬虫并没有比Python差多少啊?异步并发爬取、dom解析什么的PHP做起来都毫无压力的好嘛!
下面贴一下代码,自己封装的一个小的爬虫‘框架’(应该还称不上是框架吧,哈哈)。其实核心主要还是基于两个composer包,guzzlehttp/guzzle和symfony/dom-crawler。自己在应用层面做了一下封装,比如记录日志、断点续爬、失败请求重试、过滤重复请求、404页面加入URL黑名单。
电影模块还不错 喜欢 b 站,话说开源吗