爬取 boss 直聘技术岗并分析

前段时间工作不饱和,饱暖思淫欲,就爬取了boss直聘的主要城市技术岗,并对数据进行一个简单的分析。
在线地址

技术栈

  1. 用到的技术栈有laravel+mysql
  2. 用到的第三方包
    1. sunra/php-simple-html-dom-parser
    2. guzzlehttp/guzzle
    3. 验证码识别/百度orc

      基本思路

      一开始想的简单,直接dom解析无脑采集就好了,有simple-html-dom-parser解析起来还是比较简单的。采用command方式定时采集,每个岗位尽量错开,避免对boss直聘造成压力,也避免被封。可是真的跑起来发现还是会封的ip,哪怕我已经尽量sleep了。鉴于此。只能老老实实的采取代理的方式。
      简单说一下代理实现方式,采集网上免费代理网站,对采集到的代理进行检查是否可用(大部分不可用)。采集时从数据库当中查出,可用代理序列化存储到本地,每次从中pop出一个。如此作为一个简单的代理池使用,基本没有采集失败的情况。失败的采集任务也会在每天进行重试保证采集稳定。

      基本数据

      数据示意图,具体数据可以在网站上看。就不一一描述了。
      file

file

结论

PHP别来杭州,别来杭州,别来杭州,重要的事情说三遍。最后求职呀!!!

本作品采用《CC 协议》,转载必须注明作者和本文链接
guijianshi
《L03 构架 API 服务器》
你将学到如 RESTFul 设计风格、PostMan 的使用、OAuth 流程,JWT 概念及使用 和 API 开发相关的进阶知识。
《G01 Go 实战入门》
从零开始带你一步步开发一个 Go 博客项目,让你在最短的时间内学会使用 Go 进行编码。项目结构很大程度上参考了 Laravel。
讨论数量: 5

杭州怎么了?

5年前 评论

可以 可以 前两天在v2看到这个需求

5年前 评论
guijianshi

@lovecn 相对于北上深杭州PHP的岗位质量差距有点大。。。。

5年前 评论

讨论应以学习和精进为目的。请勿发布不友善或者负能量的内容,与人为善,比聪明更重要!