Laravel 使用 QueryList 轻松采集网页

说明

我们有时需要抓取一个网页的内容，但只需要特定部分的信息，通常会用正则来解决，这当然没有问题。正则是一个通用解决方案，但特定情况下，往往有更简单快捷的方法。

QueryList是一个基于phpQuery的PHP通用列表采集类,得益于phpQuery，让使用QueryList几乎没有任何学习成本，只要会CSS3选择器就可以轻松使用QueryList了，它让PHP做采集像jQuery选择元素一样简单。

安装

QueryList运行需要PHP5.3+,使用 Composer 安装:

composer require jaeger/querylist

用例

先上例子，再来解释。以采集PHPHub教程区文章列表为例:

<?php

namespace App\Http\Controllers;

use Illuminate\Http\Request;

use App\Http\Requests;

class IndexController extends Controller
{
    public function list()
    {
        //待采集的目标页面，PHPHub教程区
        $page = 'https://laravel-china.org/categories/6';
        //采集规则
        $rules = array(
            //文章标题
            'title' => ['.media-heading a','text'],
            //文章链接
            'link' => ['.media-heading a','href'],
            //文章作者名
            'author' => ['.img-thumbnail','alt']
        );
        //列表选择器
        $rang = '.topic-list>li';
        //采集
        $data = \QL\QueryList::Query($page,$rules,$rang)->data;
        //查看采集结果
        print_r($data);
    }
}

采集结果:

Array
(
    [0] => Array
        (
            [title] => 好友动态的实现原理
            [link] => https://learnku.com/laravel/t/2750
            [author] => luo975974740
        )

    [1] => Array
        (
            [title] => 打造完美的 Ubuntu16.04 开发环境【持续更新】
            [link] => https://learnku.com/laravel/t/2723
            [author] => liuwantao
        )

    //省略........

     [19] => Array
        (
            [title] => [Laravel 5.3 新功能] 10. 全文搜索方案 Laravel Scout 介绍
            [link] => https://learnku.com/laravel/t/2673
            [author] => monkey
        )
)

接口说明

使用QueyList只需要编写规则库，然后把规则库传给QueryList的静态方法Query，QueryList就会自动按照规则库把内容全部采集回来了，而规则库是用jQuery选择器来编写的，所以使用QueryList的整个过程非常简单!

//接口解释
QueryList::Query(采集的目标页面,采集规则[,区域选择器][，输出编码][，输入编码][，是否移除头部])
//采集规则
$rules = array(
   '规则名' => array('jQuery选择器','要采集的属性'[,"标签过滤列表"][,"回调函数"]),
   '规则名2' => array('jQuery选择器','要采集的属性'[,"标签过滤列表"][,"回调函数"]),
    ..........
    [,"callback"=>"全局回调函数"]
);
//注:方括号括起来的参数可选