requests 获取中国统计信息网，内容中文乱码

问答 / 66 / 4 / 创建于 4年前 / 更新于 4年前 / 1 个改进

问题代码

#!usr/bin/python3
# -*- coding: utf-8 -*-
def getData():
   url ="http://www.tjcn.org/tjgb/23sc/35900.html"
   headers = {
            ...
    }
    r = requests.get(url, headers=headers)  
    etree = html.etree
    r.encoding = 'utf-8'
    filename = './data/**.txt'
    with open(filename, 'w', encoding='utf-8') as f:  
    f.write(r.text)

错误结果

requests 获取中国统计信息网，内容中文乱码

修正代码

#!usr/bin/python3
# -*- coding: utf-8 -*-
def getData():
   url ="http://www.tjcn.org/tjgb/23sc/35900.html"
   headers = {
            ...
    }
    r = requests.get(url, headers=headers)  
    etree = html.etree
    r.encoding = 'gb2312'
    filename = './data/**.txt'
    with open(filename, 'w', encoding='utf-8') as f:  
    f.write(r.text)

输出正确主要是编码方式不同造成的

中国统计信息网中文乱码

7 声望

项目经理 @ 事业佳公司

希望接受别人帮助的同时，也能帮助到别人

推荐文章：

更多推荐...

Python Masonite 框架中文翻译召集（Python 中的类 Laravel 框架） 23 / 25 |

summer0422

7 声望 / 项目经理 @ 事业佳公司

最佳答案

已解决：问题产生原因是因为我用r.encoding = 'utf-8'，网页返回值是r.encoding = 'gb2312'

4年前评论

娃哈哈店长

改一下发的问题的内容文字排版吧，markdown格式的

summer0422 （作者）（楼主）

@娃哈哈店长谢谢，改正了一下似乎好一点。

娃哈哈店长

@summer0422 嗯嗯

讨论数量: 4

summer0422

7 声望 / 项目经理 @ 事业佳公司

已解决：问题产生原因是因为我用r.encoding = 'utf-8'，网页返回值是r.encoding = 'gb2312'

4年前评论

娃哈哈店长

改一下发的问题的内容文字排版吧，markdown格式的

summer0422 （作者）（楼主）

@娃哈哈店长谢谢，改正了一下似乎好一点。

娃哈哈店长

@summer0422 嗯嗯

andersonshao

0 声望

排版帮助不了别人

4年前评论

ll104567

1 声望

比如夏侯惇的惇在gb2312会识别不了，所以可以用gbk

4年前评论

_python_learning

0 声望

html.encoding = html.apparent_encoding

3年前评论

讨论应以学习和精进为目的。请勿发布不友善或者负能量的内容，与人为善，比聪明更重要！

帮助

7 声望

项目经理 @ 事业佳公司

纠错改进

成为赞助商