网站页面内部分内容是 Ajax 获取赋值的如何抓取

问答 / 0 / 6 / 创建于 6年前

想要抓取网站的产品信息，如图

页面部分内容是他网站js赋值的，如何抓取

产品图片地址

页面部分内容是他网站js赋值的，如何抓取
产品参数介绍

用guzzle抓取页面的html信息后发现，对应的位置只有 <div id='jqlist'></div> 和<div id='attributes'></div> 空内容的标签。

他这个是用过ajax去取数据,然后通过 $("#jqlist").html(data); 进行赋值的

我尝试通过他页面对应的链接直接去获取图集的数据和详情的数据，发现获取到的是空的数据。

但是抓取的数据中，只有很少很少的页面会获取到对应的图片和详情，请问如何破？

我是用 Guzzle 和 file_get_contents 抓取，然后用 HtmlDomParser 进行分析的

附代码

 $page_id = $request['id'] ?:1;
$html = HtmlDomParser::str_get_html( file_get_contents($this->url.$page_id) );//列表页

$caiji_number = 0;//新增采集数
foreach($html->find('ul.pro') as $key => $info)
{
    $thumb = $info->find('a img',0)->src;//获得产品列表图
    //根据产品详情链接采集对应详情信息
    $detail = HtmlDomParser::str_get_html( file_get_contents($info->find('a',0)->href) );
    //产品详情
    $product_description = $detail->find('div#attributes',0)->plaintext;
    //图集
    $pics = $detail->find('div#jqlist li');
    $get_pics = [];
    foreach ($pics as $pic) {
        if($pic->find('img',0)->src){
            $get_pics[] = $pic->find('img',0)->src;
        }
    }
    $pic = implode(',',$get_pics);

    //以下是存数据库的代码

}

一个奋斗者

课程读者 18 声望

PHPer @ 优智

这个是我的个人简介

《L02 从零构建论坛系统》

以构建论坛项目 LaraBBS 为线索，展开对 Laravel 框架的全面学习。应用程序架构思路贴近 Laravel 框架的设计哲学。

《L05 电商实战》

从零开发一个电商项目，功能包括电商后台、商品 & SKU 管理、购物车、订单管理、支付宝支付、微信支付、订单退款流程、优惠券等

推荐文章：

更多推荐...

价值千万的诊所saas项目正式开源 15 / 26 |

Dcat-Plus-Admin：dcat-admin框架的超级增强版，开发效率提升200%！ 18 / 17 |

用 Laravel12 Startkit 做了一个 composer 私有包托管平台 😂 点赞超过 20 个开源，看看需要的人多不多 29 / 21 |

如何打造令后端面试官印象深刻的简历？ 16 / 10 |

花了四个月打磨的 Laravel Plus 开源 35 / 104 |

冯老师的困惑 —— 一个跑了两年的 BUG 22 / 18 |

讨论数量: 6

lyxxxh

1.3k 声望

我更喜欢抓这种，正则都不需要了。

f12 看他包，请求他接口。

6年前评论

未进化的类人猿

也许需要cookie

songbai （楼主）

hongta.sooxie.com/809148.aspx 里面有两个post请求，我用代码还有用postman去获取，都是返回空

未进化的类人猿

课程读者 52 声望 / 后端工程师 @ Jsanity,Inc

可能需要cookie

6年前评论

小手冰凉

见习助教 54 声望

queryList试一下。

6年前评论

songbai （楼主）

这个和postman差不多吧，现在是，图集和产品描述，对方的页面是通过ajax发送post请求获取后赋值的，我直接去请求那个地址，返回时空，不知道是不是有判断请求来源？

panda-sir

96 声望 / 后端开发工程师 @ 摸鱼协会

:smirk:需要cookie我一般都模拟登陆除非拼图之类的反人类的验证码了我就放弃手动录入cookie或者采用其他方式了一般的字母数字验证码随便找个接口就能识别了

6年前评论

IceBay

课程读者 124 声望

用 puppeteer ? 或者抓接口

6年前评论

songbai （楼主）

直接用接口请求过去空的，你说的puppeteer，没听过，实在不行，这两部分的数据就只能用八爪鱼了

小手冰凉

见习助教 54 声望

去试一下就知道了。

6年前评论

讨论应以学习和精进为目的。请勿发布不友善或者负能量的内容，与人为善，比聪明更重要！

帮助