爬取 boss 直聘技术岗并分析

前段时间工作不饱和,饱暖思淫欲,就爬取了boss直聘的主要城市技术岗,并对数据进行一个简单的分析。
在线地址

技术栈

  1. 用到的技术栈有laravel+mysql
  2. 用到的第三方包
    1. sunra/php-simple-html-dom-parser
    2. guzzlehttp/guzzle
    3. 验证码识别/百度orc

      基本思路

      一开始想的简单,直接dom解析无脑采集就好了,有simple-html-dom-parser解析起来还是比较简单的。采用command方式定时采集,每个岗位尽量错开,避免对boss直聘造成压力,也避免被封。可是真的跑起来发现还是会封的ip,哪怕我已经尽量sleep了。鉴于此。只能老老实实的采取代理的方式。
      简单说一下代理实现方式,采集网上免费代理网站,对采集到的代理进行检查是否可用(大部分不可用)。采集时从数据库当中查出,可用代理序列化存储到本地,每次从中pop出一个。如此作为一个简单的代理池使用,基本没有采集失败的情况。失败的采集任务也会在每天进行重试保证采集稳定。

      基本数据

      数据示意图,具体数据可以在网站上看。就不一一描述了。
      file

file

结论

PHP别来杭州,别来杭州,别来杭州,重要的事情说三遍。最后求职呀!!!

本作品采用《CC 协议》,转载必须注明作者和本文链接
guijianshi
《L01 基础入门》
我们将带你从零开发一个项目并部署到线上,本课程教授 Web 开发中专业、实用的技能,如 Git 工作流、Laravel Mix 前端工作流等。
《L02 从零构建论坛系统》
以构建论坛项目 LaraBBS 为线索,展开对 Laravel 框架的全面学习。应用程序架构思路贴近 Laravel 框架的设计哲学。
讨论数量: 5

杭州怎么了?

5年前 评论

可以 可以 前两天在v2看到这个需求

5年前 评论
guijianshi

@lovecn 相对于北上深杭州PHP的岗位质量差距有点大。。。。

5年前 评论

讨论应以学习和精进为目的。请勿发布不友善或者负能量的内容,与人为善,比聪明更重要!