想爬取51拍卖房网站信息,请大家帮看看,点拨一下我。

想要爬取 51 拍卖房的房源信息,最后保存到 EXCEL 中 (网址 https://www.51paimaifang.com/)。
很奇怪的是我爬取到的信息与网站显示的不同。并且网站翻页后,网址没有变化。

不知如何才能爬到多页的房源信息,请大家帮看看,点拨一下我。#

下面附上我自己的代码,以及爬取到的信息和网站信息对比的异常结果。

import requests
from bs4 import BeautifulSoup
headers={
        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.100 Safari/537.36"
    }
url = "https://www.51paimaifang.com/index.html?province=14&provincec=上海市"
response = requests.get(url=url,headers=headers)
response.encoding = 'utf-8'
soup = BeautifulSoup(response.text,"html.parser")
print(soup)

如图所示,爬取下来的第一个信息和网站显示的第一个信息完全不同,而且爬取下来的信息在网页中无法搜索到。
如上图所示,爬取下来的第一个信息和网站显示的第一个信息完全不同,而且爬取下来的信息在网页中无法搜索到。
如上图所示,点击第二页后,网址无变化。
如上图所示,点击第二页后,网址无变化。
如上图所示,点击第二页后,发现webhlist新增了一行,对比不同点发现有两个随机生成的部分。
如上图所示,点击第二页后,发现 webhlist 新增了一行,对比不同点发现有两个随机生成的部分。

最佳答案

这个网站稍微看了下,数据是动态生成的。我看你好像是想用 Xpath 处理,动态数据 Xpath 是获取不到的。

图中是构建了一个 b 里面放着 params,就是请求时要带上的数据,pi 是页数,salt 时间戳,sign 是把构建好的 b 丢到一个函数里加密。 要成功请求的话把加密的 js 抠出来,重现一下就可以了。

file

file

file

2年前 评论
PCurry (楼主) 2年前
PCurry (楼主) 2年前
qingfeng_ (作者) 2年前
PCurry (楼主) 2年前
讨论数量: 7

翻页的真实地址你可以用 Fiddler 抓包看看

2年前 评论

都是用火车头采集,谁还写代码实现啊

2年前 评论

这个网站稍微看了下,数据是动态生成的。我看你好像是想用 Xpath 处理,动态数据 Xpath 是获取不到的。

图中是构建了一个 b 里面放着 params,就是请求时要带上的数据,pi 是页数,salt 时间戳,sign 是把构建好的 b 丢到一个函数里加密。 要成功请求的话把加密的 js 抠出来,重现一下就可以了。

file

file

file

2年前 评论
PCurry (楼主) 2年前
PCurry (楼主) 2年前
qingfeng_ (作者) 2年前
PCurry (楼主) 2年前