python获取页面乱码时的处理

用requests模块获取网站数据时,网站的编码是个很麻烦的问题。一般情况下,requests会自动识别网站的编码,如果网页没有指定编码,那就会默认为是ISO-8859-1编码。这个时候可能就会出问题。

一般有几种方式,最简单的就是,人为的指定编码 r.encoding = ‘utf-8’

但是采集数据时,可能访问不同域名的网站,这时候就不好为每一个网站都人为的指定一个正确的编码。以下是通用方法

        if r.encoding == 'ISO-8859-1':
            encodings = requests.utils.get_encodings_from_content(r.text)
            if encodings:
                encoding = encodings[0]
            else:
                encoding = r.apparent_encoding
            return r.content.decode(encoding, 'replace')
        else:
            return r.text
本作品采用《CC 协议》,转载必须注明作者和本文链接
讨论数量: 0
(= ̄ω ̄=)··· 暂无内容!

讨论应以学习和精进为目的。请勿发布不友善或者负能量的内容,与人为善,比聪明更重要!