想爬取51拍卖房网站信息，请大家帮看看，点拨一下我。

问答 / 5 / 7 / 创建于 3年前

想要爬取51拍卖房的房源信息，最后保存到EXCEL中(网址 https://www.51paimaifang.com/)。
很奇怪的是我爬取到的信息与网站显示的不同。并且网站翻页后，网址没有变化。

不知如何才能爬到多页的房源信息，请大家帮看看，点拨一下我。

下面附上我自己的代码，以及爬取到的信息和网站信息对比的异常结果。

import requests
from bs4 import BeautifulSoup
headers={
        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.100 Safari/537.36"
    }
url = "https://www.51paimaifang.com/index.html?province=14&provincec=上海市"
response = requests.get(url=url,headers=headers)
response.encoding = 'utf-8'
soup = BeautifulSoup(response.text,"html.parser")
print(soup)

如图所示，爬取下来的第一个信息和网站显示的第一个信息完全不同，而且爬取下来的信息在网页中无法搜索到。
如上图所示，爬取下来的第一个信息和网站显示的第一个信息完全不同，而且爬取下来的信息在网页中无法搜索到。

如上图所示，点击第二页后，网址无变化。

如上图所示，点击第二页后，发现webhlist新增了一行，对比不同点发现有两个随机生成的部分。

python 爬虫 51拍卖网

19 声望

暂无个人描述~

推荐文章：

更多推荐...

置顶

[进度 100.00%] Python Masonite 4.0 中文翻译召集（Python 中的类 Laravel 框架） 15 / 20 |

2021年python库大全 30 / 5 |

Python Masonite 框架中文翻译召集（Python 中的类 Laravel 框架） 24 / 25 |

收集了一些各大网站 python 的登陆方式,希望对学习 python 的小白，和想写爬虫的你们有所帮助,,本项目用于研究和分享各大网站的模拟登陆方式 17 / 5 |

Python 3.7 的一些新特性 10 / 2 |

一起学 Python 《Python 最佳实践指南》翻译召集 16 / 2 |

qingfeng_

5 声望

最佳答案

这个网站稍微看了下，数据是动态生成的。我看你好像是想用Xpath处理，动态数据Xpath是获取不到的。

图中是构建了一个b里面放着params，就是请求时要带上的数据，pi是页数，salt时间戳，sign是把构建好的b丢到一个函数里加密。要成功请求的话把加密的js抠出来，重现一下就可以了。

file

file

file

3年前评论

PCurry （楼主）

目前只会用Xpath处理。第一次遇到加密的，谢谢指点，我按照您说的来探索下。

PCurry （楼主）

网上看了很多视频，已经可以重现了，但是没有内容的响应，这个网址比较有独特，没有见到相似的教程，越过一个山峰，发现前面还有一座山峰，哈哈哈。

qingfeng_ （作者）

@PCurry xpath的话用selenium自动化可以做，直接抓接口主要就涉及到一些加密的问题

PCurry （楼主）

@qingfeng_ 嗯，已经搞定了。谢谢。

讨论数量: 7

南瓜头

3 声望

翻页的真实地址你可以用Fiddler抓包看看

3年前评论

真的是你呀

23 声望

都是用火车头采集，谁还写代码实现啊

3年前评论

qingfeng_

5 声望

这个网站稍微看了下，数据是动态生成的。我看你好像是想用Xpath处理，动态数据Xpath是获取不到的。

图中是构建了一个b里面放着params，就是请求时要带上的数据，pi是页数，salt时间戳，sign是把构建好的b丢到一个函数里加密。要成功请求的话把加密的js抠出来，重现一下就可以了。

file

file

file

3年前评论

PCurry （楼主）

目前只会用Xpath处理。第一次遇到加密的，谢谢指点，我按照您说的来探索下。

PCurry （楼主）

网上看了很多视频，已经可以重现了，但是没有内容的响应，这个网址比较有独特，没有见到相似的教程，越过一个山峰，发现前面还有一座山峰，哈哈哈。

qingfeng_ （作者）

@PCurry xpath的话用selenium自动化可以做，直接抓接口主要就涉及到一些加密的问题

PCurry （楼主）

@qingfeng_ 嗯，已经搞定了。谢谢。

讨论应以学习和精进为目的。请勿发布不友善或者负能量的内容，与人为善，比聪明更重要！

帮助