爬虫中数据清洗的选择

前言

最近身边几个学习爬虫的朋友问我，获取到数据之后不知道如何选择数据清洗的方式，我给他们的需求做出了解答，发现还是有很多人都难在了这一步，今天分享一下我自己的思路。

获取的数据类型

这一步其实是最开始的一步，当我们分析需要获取的数据并去测试获取的时候就会知道，目前比较常见的是HTML格式、JSON格式或者混合的格式。

HTML格式

当我们获得的数据为HTML格式时，可以看看我们需要的数据是什么样子的，一般情况下是使用Xpath根据节点去获取对应的数据，但是如果Xpath提取很复杂或者提取不到想要的数据，可以先通过Xpath获取一个较大范围的数据，再利用正则表达式去进一步数据清洗。

JSON格式

JSON格式就比较简单了一般可以直接通过json库的.load()方法反序列化就可以了，需要注意的是，反序列化后数据类型可能不是我们想要的这时候我们再通过类型转换来帮助我们获取想要的数据。

混合类型

假如混合类型中存在类JSON格式的，我们可以先通过正则表达式将该段提取出来，然后通过json库的.load()方法反序列化获取。如果情况比较复杂，也不用慌，先观察数据的格式，可以将获取到的数据拿出来，重新排版观察后再进一步处理。

总结

数据清洗主要是考察我们对数据的观察力与逻辑，只要掌握基本办法然后多尝试几次就能掌握到规律。拿到数据后不要慌张，如果一开始不能清晰地判断，就将数据重新排版再看看，一定要先观察清楚在动手。Xpath是一定要学会的，许多爬虫框架中也都是通过Xpath来进行数据清洗的。

本作品采用《CC 协议》，转载必须注明作者和本文链接

SilenceHL

版主 439 声望

暂无个人描述~

1 人点赞

推荐文章：

更多推荐...

置顶

[进度 100.00%] Python Masonite 4.0 中文翻译召集（Python 中的类 Laravel 框架） 15 / 19 |

公告

Python Masonite 框架中文翻译召集（Python 中的类 Laravel 框架） 24 / 25 |

博客

收集了一些各大网站 python 的登陆方式,希望对学习 python 的小白，和想写爬虫的你们有所帮助,,本项目用于研究和分享各大网站的模拟登陆方式 17 / 5 |

翻译

Python 3.7 的一些新特性 10 / 2 |

链接

快速掌握一个语言最常用的 50% 11 / 1 |

翻译

使用 Python 一步步搭建自己的区块链 22 / 1 |

讨论数量: 0

(=￣ω￣=)··· 暂无内容！

讨论应以学习和精进为目的。请勿发布不友善或者负能量的内容，与人为善，比聪明更重要！

帮助

未填写

私信

所有博文

文章归档

4年前每天分享一个好用的Python库-user-agents 4年前每天分享一个好用的Python库-pyfiglet 4年前每天分享一个好用的Python库-xpinyin 4年前每天分享一个好用的Python库-shortuuid 4年前每天分享一个好用的Python库-esmre

4 一个Python开发者对鸿蒙的看法 3 每天分享一个好用的Python库-xpinyin 3 用网上的API做一些有趣的事 2 每天一个爬虫-learnku我的博客个人数据 2 每天分享一个好用的Python库-difflib

博客标签

爬虫

时间

虚拟环境

Python库

Python2与Python3

成为赞助商

爬虫中数据清洗的选择

前言

获取的数据类型

HTML格式

JSON格式

混合类型

总结

推荐文章：

社区赞助商

关于 LearnKu

资源推荐

服务提供商

其他信息

爬虫中数据清洗的选择

前言

获取的数据类型

HTML格式

JSON格式

混合类型

总结

推荐文章：

社区赞助商

关于 LearnKu

资源推荐

服务提供商

其他信息

请登录