关于class类内函数调用的问题——附上代码请求指点

代码

import requests
from lxml import etree

class Chaidanzhuanjia(object):
    def __init__(self,times):
        self.times = int(times)
        self.headers = headers = {
    'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 11_1_0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.96 Safari/537.36'
}

# data{
#     #第一页
#     #https://movie.douban.com/subject/30171424/reviews
#     #第二页
#     #https://movie.douban.com/subject/30171424/reviews?start=20
#     #第三页
#     #https://movie.douban.com/subject/30171424/reviews?start=40
# }

    # 创建爬取函数
    def request_page(self):
        for i in range(self.times):
            #根据页面规则构造页面url
            url = 'https://movie.douban.com/subject/30171424/reviews?start={}'.format(i*20)
            response = requests.get(url=url,headers=self.headers).text
            print(response)
            return response

    #创建清洗数据函数
    def wash_data(self):
        data = request_page()
        html = etree.HTML(data)
        html = etree.tostring(html)
        print(type(html))
if __name__ == '__main__':
    page = int(input('输入爬取页数：'))
    chaidanzhuanjia = Chaidanzhuanjia(page)
    chaidanzhuanjia.request_page()
    chaidanzhuanjia.wash_data()

问题

Chaidanzhuanjia()类内如何将request_page()，return的html数据传到wash_data()函数里面进行清洗呢？

class 爬虫 requests

Scrooge

273 声望

奋进小生，Gopher

0 人点赞

推荐文章：

更多推荐...

博客

收集了一些各大网站 python 的登陆方式,希望对学习 python 的小白，和想写爬虫的你们有所帮助,,本项目用于研究和分享各大网站的模拟登陆方式 16 / 5 |

Jason990420

1.8k 声望 / 個人 @ 個人

最佳答案

Revised as following,

import requests
from lxml import etree

class Chaidanzhuanjia(object):

    def __init__(self,times):
        self.times = int(times)
        self.headers = headers = {
            'User-Agent': (
                'Mozilla/5.0 (Macintosh; Intel Mac OS X 11_1_0) AppleWebKit/'
                '537.36 (KHTML, like Gecko) Chrome/88.0.4324.96 Safari/537.36')
        }

    def request_page(self, url):
        """
        创建爬取函数
        """
        try:
            response = requests.get(url=url,headers=self.headers).text
            print(response)
        except:
            response = None
        return response

    def wash_data(self):
        """
        创建清洗数据函数
        根据页面规则构造页面url
        第一页 https://movie.douban.com/subject/30171424/reviews
        第二页 https://movie.douban.com/subject/30171424/reviews?start=20
        第三页 https://movie.douban.com/subject/30171424/reviews?start=40
        """
        for i in range(self.times):
            url = ('https://movie.douban.com/subject/30171424/reviews?start={}'
                .format(i*20))
            data = self.request_page(url)
            if data is not None:
                html = etree.HTML(data)
                html = etree.tostring(html).decode()
                print(type(html))

if __name__ == '__main__':
    try:
        pages = int(input('输入爬取页数：'))
    except:
        pages = 1
    chaidanzhuanjia = Chaidanzhuanjia(pages)
    chaidanzhuanjia.wash_data()

3年前评论

Scrooge （楼主）

非常感谢指点，代码可读性高了很多，思路也很清晰很容易读懂了

Scrooge （楼主）

            html = etree.tostring(html).decode() 运行了一下会报错：lxml.etree.SerialisationError: IO_ENCODER查了下百度应该是etree.tostring()转换编码问题。然后修改成了：html = etree.tostring(html,encoding='utf-8')解决！谢谢@Jason990420提供的代码思路

Jason990420 （作者）

@Scrooge 我这倒没报错, decode() 相当于 decode(encoding='utf-8', errors='strict')

讨论数量: 1

Jason990420

1.8k 声望 / 個人 @ 個人

Revised as following,

import requests
from lxml import etree

class Chaidanzhuanjia(object):

    def __init__(self,times):
        self.times = int(times)
        self.headers = headers = {
            'User-Agent': (
                'Mozilla/5.0 (Macintosh; Intel Mac OS X 11_1_0) AppleWebKit/'
                '537.36 (KHTML, like Gecko) Chrome/88.0.4324.96 Safari/537.36')
        }

    def request_page(self, url):
        """
        创建爬取函数
        """
        try:
            response = requests.get(url=url,headers=self.headers).text
            print(response)
        except:
            response = None
        return response

    def wash_data(self):
        """
        创建清洗数据函数
        根据页面规则构造页面url
        第一页 https://movie.douban.com/subject/30171424/reviews
        第二页 https://movie.douban.com/subject/30171424/reviews?start=20
        第三页 https://movie.douban.com/subject/30171424/reviews?start=40
        """
        for i in range(self.times):
            url = ('https://movie.douban.com/subject/30171424/reviews?start={}'
                .format(i*20))
            data = self.request_page(url)
            if data is not None:
                html = etree.HTML(data)
                html = etree.tostring(html).decode()
                print(type(html))

if __name__ == '__main__':
    try:
        pages = int(input('输入爬取页数：'))
    except:
        pages = 1
    chaidanzhuanjia = Chaidanzhuanjia(pages)
    chaidanzhuanjia.wash_data()

3年前评论

Scrooge （楼主）

非常感谢指点，代码可读性高了很多，思路也很清晰很容易读懂了

Scrooge （楼主）

            html = etree.tostring(html).decode() 运行了一下会报错：lxml.etree.SerialisationError: IO_ENCODER查了下百度应该是etree.tostring()转换编码问题。然后修改成了：html = etree.tostring(html,encoding='utf-8')解决！谢谢@Jason990420提供的代码思路

Jason990420 （作者）

@Scrooge 我这倒没报错, decode() 相当于 decode(encoding='utf-8', errors='strict')

讨论应以学习和精进为目的。请勿发布不友善或者负能量的内容，与人为善，比聪明更重要！

帮助

关于class类内函数调用的问题——附上代码请求指点

代码

问题

推荐文章：

社区赞助商

关于 LearnKu

资源推荐

服务提供商

其他信息

关于class类内函数调用的问题——附上代码请求指点

代码

问题

推荐文章：

社区赞助商

关于 LearnKu

资源推荐

服务提供商

其他信息

请登录