爬取 boss 直聘技术岗并分析
前段时间工作不饱和,饱暖思淫欲,就爬取了boss直聘的主要城市技术岗,并对数据进行一个简单的分析。
在线地址
技术栈
- 用到的技术栈有laravel+mysql
- 用到的第三方包
- sunra/php-simple-html-dom-parser
- guzzlehttp/guzzle
- 验证码识别/百度orc
基本思路
一开始想的简单,直接dom解析无脑采集就好了,有simple-html-dom-parser解析起来还是比较简单的。采用command方式定时采集,每个岗位尽量错开,避免对boss直聘造成压力,也避免被封。可是真的跑起来发现还是会封的ip,哪怕我已经尽量sleep了。鉴于此。只能老老实实的采取代理的方式。
简单说一下代理实现方式,采集网上免费代理网站,对采集到的代理进行检查是否可用(大部分不可用)。采集时从数据库当中查出,可用代理序列化存储到本地,每次从中pop出一个。如此作为一个简单的代理池使用,基本没有采集失败的情况。失败的采集任务也会在每天进行重试保证采集稳定。基本数据
数据示意图,具体数据可以在网站上看。就不一一描述了。
结论
PHP别来杭州,别来杭州,别来杭州,重要的事情说三遍。最后求职呀!!!
本作品采用《CC 协议》,转载必须注明作者和本文链接
666
23333
杭州怎么了?
可以 可以 前两天在v2看到这个需求
@lovecn 相对于北上深杭州PHP的岗位质量差距有点大。。。。