PHP 爬虫爬取社区文章内容

DenverB 的个人博客 / 12 / 3 / 创建于 8年前

php也可以写爬虫

说起爬虫，大多数第一反应都是python，python强大的requests和bs4等等强大的第三方库让人们都喜欢用python去写爬虫。但是php作为“世界上最好的语言”当然也可以用来开发爬虫。
写了一个小的爬虫爬取社区的文章源码地址

前期准备

composer
Guzzle Guzzle是一个十分强大的php的模拟HTTP client的第三方库，可以通过composer安装
Goutte Goutte是一个用来解析HTML文档的第三方库，可以通过composer安装

开始工作

1.安装两个库

Goutte composer require fabpot/goutte
Guzzle composer require guzzlehttp/guzzle:~6.0

2.创建命令

php artisan make:command Spider

3.命令参数

protected $signature = 'command:spider {concurrency} {keyWords*}'; //concurrency为并发数 keyWords为查询关键词

4.编写爬虫

写了一个简单的，主要用来爬取社区的文章，通过命令行参数获取要搜索的关键词，然后爬取文章，并爬下内容存在本地。直接贴代码啦。

<?php

namespace App\Console\Commands;

use Goutte\Client as GoutteClient;
use GuzzleHttp\Client as GuzzleClient;
use GuzzleHttp\Pool;
use Illuminate\Console\Command;
use Illuminate\Support\Facades\Storage;

class Spider extends Command
{

    protected $signature = 'command:spider {concurrency} {keyWords*}'; //concurrency为并发数  keyWords为查询关键词

    protected $description = 'php spider';

    public function __construct()
    {
        parent::__construct();
    }

    public function handle()
    {
        //
        $concurrency = $this->argument('concurrency');  //并发数
        $keyWords = $this->argument('keyWords');    //查询关键词
        $guzzleClent = new GuzzleClient();
        $client = new GoutteClient();
        $client->setClient($guzzleClent);
        $request = function ($total) use ($client,$keyWords){
            foreach ($keyWords as $key){
                $url='https://laravel-china.org/search?q='.$key;
                yield function () use($client,$url){
                    return $client->request('GET',$url);
                };
            }
        };
        $pool = new Pool($guzzleClent,$request(count($keyWords)),[
            'concurrency' => $concurrency,
            'fulfilled' => function ($response, $index) use ($client){
                $response->filter('h2 > a')->reduce(function($node) use ($client){
                    if(strlen($node->attr('title'))==0) {
                        $title = $node->text();             //文章标题
                        $link = $node->attr('href');        //文章链接
                        $carwler = $client->request('GET',$link);       //进入文章
                        $content=$carwler->filter('#emojify')->first()->text();     //获取内容
                        Storage::disk('local')->put($title,$content);           //储存在本地
                    }
                });
            },
            'rejected' => function ($reason, $index){
                $this->error("Error is ".$reason);
            }
        ]);
        //开始爬取
        $promise = $pool->promise();
        $promise->wait();
    }
}

本作品采用《CC 协议》，转载必须注明作者和本文链接

本帖由系统于 8年前自动加精

课程读者 105 声望

后台开发 @ 腾讯

不疯魔不成活

《L04 微信小程序从零到发布》

从小程序个人账户申请开始，带你一步步进行开发一个微信小程序，直到提交微信控制台上线发布。

《L05 电商实战》

从零开发一个电商项目，功能包括电商后台、商品 & SKU 管理、购物车、订单管理、支付宝支付、微信支付、订单退款流程、优惠券等

推荐文章：

更多推荐...

做了一个独立开发者社区，期待大家一起交流 13 / 73 |

花了四个月打磨的 Laravel Plus 开源 35 / 104 |

社区老员第二弹 -- 免费开源跨境电商系统 InnoShop 正式发布 15 / 16 |

PHP 程序员转 Go 语言的经历分享 19 / 13 |

你好，InnoCMS：一个 Laravel 社区老员的开源建站之旅 34 / 51 |

手摸手带你使用 docker-compose 编排一个开发环境 22 / 15 |

讨论数量: 3

_杭城浪子

课程读者 401 声望 / PHP & java @ nc

是不是少了东西

8年前评论

sushengbuhuo

16 声望 / PHP工程师 @ 新浪

报错了

$ php artisan command:spider 5 guzzle

In Local.php line 129:

  file_put_contents(): failed to open stream: Invalid argument

7年前评论

Tenlu

0 声望

是否支持html页面爬取？

7年前评论

讨论应以学习和精进为目的。请勿发布不友善或者负能量的内容，与人为善，比聪明更重要！

帮助

后台开发 @ 腾讯

私信

文章归档

1 篇 2018 年 3 月 1 篇 2017 年 10 月 1 篇 2017 年 9 月 1 篇 2017 年 8 月

8年前纪录我的春招之路 (持续更新到找到实习) 8年前 Laravel5.5 制作的团队博客系统 8年前 PHP 爬虫爬取社区文章内容 8年前 Laravel5.4＋JWT＋dingo/API 构建 RESTfulAPI

81 纪录我的春招之路 (持续更新到找到实习) 50 Laravel5.4＋JWT＋dingo/API 构建 RESTfulAPI 31 PHP 爬虫爬取社区文章内容 25 Laravel5.5 制作的团队博客系统

成为赞助商