python 爬虫 HTML 乱码

问答 / 1 / 3 / 创建于 5年前 / 更新于 5年前

请问各位这种html乱码是需要解压缩吗，还是其他原因导致的!
import requests
url=’https://movie.douban.com/top250'
header={ ‘Accept’:’text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,imag e/apng,/;q=0.8’,
‘Accept-Encoding’:’gzip,deflate,br’,
‘Accept-Language’:’zh-CN,zh;q=0.9’,
‘Cache-Control’:’max-age=0’,
‘Connection’:’keep-alive’,
‘Host’:’movie.douban.com’,
‘Upgrade-Insecure-Requests’:’1’,
‘User-Agent’:’Mozilla/5.0(Windows NT 6.1;WOW64)AppleWebKit/537.36(KHTML,like Gecko)Chrome/63.0.3239.132 Safari/537.36’,
}
response=requests.get(url=url,headers=header)
response.encoding=’utf-8’
print(response.text)

python 爬虫

jean123

7 声望

暂无个人描述~

0 人点赞

推荐文章：

更多推荐...

置顶

[进度 100.00%] Python Masonite 4.0 中文翻译召集（Python 中的类 Laravel 框架） 15 / 19 |

博客

2021年python库大全 30 / 5 |

公告

Python Masonite 框架中文翻译召集（Python 中的类 Laravel 框架） 24 / 25 |

博客

收集了一些各大网站 python 的登陆方式,希望对学习 python 的小白，和想写爬虫的你们有所帮助,,本项目用于研究和分享各大网站的模拟登陆方式 17 / 5 |

翻译

Python 3.7 的一些新特性 10 / 2 |

公告

一起学 Python 《Python 最佳实践指南》翻译召集 16 / 2 |

Jason990420

1.9k 声望 / 個人 @ 個人

最佳答案

headr 中 'Accept-Encoding':'gzip,deflate,br'

response.headers 中 'Content-Encoding': 'br'

{'Date': 'Mon, 09 Mar 2020 12:24:34 GMT', 'Content-Type': 'text/html; charset=utf-8', 'Transfer-Encoding': 'chunked', 'Connection' : 'keep-alive', 'Keep-Alive': 'timeout=30', 'Vary': 'Accept-Encoding, Accept-Encoding', 'X-Xss-Protection': '1; mode=block', ' X-Douban-Mobileapp': '0', 'Expires': 'Sun, 1 Jan 2006 01:00:00 GMT', 'Pragma': 'no-cache', 'Cache-Control': 'must-revalidate, no-cache, private', 'Set-Cookie': 'bid=yFVQdCa6UaE; Expires=Tue, 09-Mar-21 12:24:34 GMT; Domain=.douban.com; Path=/', 'X-DOUBAN -NEWBID': 'yFVQdCa6UaE', 'X-DAE-App': 'movie', 'X-DAE-Instance': 'default', 'Server': 'dae', 'X-Content-Type-Options': 'nosniff', 'Content-Encoding': 'br'}

br 指的是 Brotli，是一种全新的数据格式，无损压缩，压缩比极高 (比gzip高的) , 默认是不作br解压缩的.

解决方法有两种方式

'Accept-Encoding':'gzip,deflate,br'
去掉br, 改为 
'Accept-Encoding':'gzip,deflate'

pip install brotli
import brotli
data = brotli.decompress(response.content)
html = data.decode('utf-8')

5年前评论

jean123 （楼主）

非常感谢！

讨论数量: 3

pardon110

862 声望 / 开发者 @ 社科大

你所抓取的目标页面编码有可能是gb2312

5年前评论

jean123 （楼主）

试过了，还是不对

娃哈哈店长

见习助教 494 声望

代码请复制粘贴，换一下吧。图片贴代码太伤害人了。哈哈：）

5年前评论

jean123 （楼主）

修改了

Jason990420

1.9k 声望 / 個人 @ 個人

headr 中 'Accept-Encoding':'gzip,deflate,br'

response.headers 中 'Content-Encoding': 'br'

{'Date': 'Mon, 09 Mar 2020 12:24:34 GMT', 'Content-Type': 'text/html; charset=utf-8', 'Transfer-Encoding': 'chunked', 'Connection' : 'keep-alive', 'Keep-Alive': 'timeout=30', 'Vary': 'Accept-Encoding, Accept-Encoding', 'X-Xss-Protection': '1; mode=block', ' X-Douban-Mobileapp': '0', 'Expires': 'Sun, 1 Jan 2006 01:00:00 GMT', 'Pragma': 'no-cache', 'Cache-Control': 'must-revalidate, no-cache, private', 'Set-Cookie': 'bid=yFVQdCa6UaE; Expires=Tue, 09-Mar-21 12:24:34 GMT; Domain=.douban.com; Path=/', 'X-DOUBAN -NEWBID': 'yFVQdCa6UaE', 'X-DAE-App': 'movie', 'X-DAE-Instance': 'default', 'Server': 'dae', 'X-Content-Type-Options': 'nosniff', 'Content-Encoding': 'br'}

br 指的是 Brotli，是一种全新的数据格式，无损压缩，压缩比极高 (比gzip高的) , 默认是不作br解压缩的.

解决方法有两种方式

'Accept-Encoding':'gzip,deflate,br'
去掉br, 改为 
'Accept-Encoding':'gzip,deflate'

pip install brotli
import brotli
data = brotli.decompress(response.content)
html = data.decode('utf-8')

5年前评论

jean123 （楼主）

非常感谢！

讨论应以学习和精进为目的。请勿发布不友善或者负能量的内容，与人为善，比聪明更重要！

帮助

python 爬虫 HTML 乱码

推荐文章：

社区赞助商

关于 LearnKu

资源推荐

服务提供商

其他信息

python 爬虫 HTML 乱码

推荐文章：

社区赞助商

关于 LearnKu

资源推荐

服务提供商

其他信息

请登录