Pandas 基础 (6) - 用 replace () 函数处理不合理数据

Rachel 的个人博客 / 2 / 0 / 创建于 7年前 / 更新于 7年前

引入 csv 文件:

import pandas as pd
import numpy as np
df = pd.read_csv('/Users/rachel/Sites/pandas/py/pandas/6_handling_missing_data_replace/weather_data.csv')
df

输出:

从上面的输出截图, 可以看到有很多不合理的数据, 这时可以用 replace() 函数来处理:

new_df = df.replace([-99999, -88888], np.NaN)

输出:

Pandas 基础 (6) - 用 replace () 函数处理不合理数据

这时, 就还剩下 event 列里的 0 还没有改, 因为没办法简单粗暴地把数字 0 放到 replace 函数的数组里, 这样会影响其他列的值. 所以要用 python 的 dictionary:

new_df = df.replace({
    'temperature' : -99999,
    'windspeed':[-99999, -88888],
    'event': '0'
}, np.NaN)

下面再来改下原 csv 文件, 把其中各别数据加上"单位":

Pandas 基础 (6) - 用 replace () 函数处理不合理数据

如果我们想把多余的字母单位去掉, 可以用正则:

new_df = df.replace('[A-Za-z]','', regex=True)

这样替换之后,可以看一眼输出结果, 发现 event 列的内容都没有了, 因为字母都被替换掉了. 所以还是要这样做:

new_df = df.replace({
    'temperature': '[A-Za-z]',
    'windspeed': '[A-Za-z]'
} ,'', regex=True)

另一个特性:
首先

df = pd.DataFrame({
    'score': ['exceptional', 'average', 'good', 'poor', 'average', 'exceptional'],
    'student': ['rob', 'maya', 'jorge', 'tom', 'july', 'erica']
})

输出:

Pandas 基础 (6) - 用 replace () 函数处理不合理数据

可以看到目前 score 列是用4个形容词来体现成绩的, 那如果想把它们按照等级换成 1-4分呢?

new_df = df.replace(['poor', 'average', 'good', 'exceptional'], [1, 2, 3, 4])

输出:

Pandas 基础 (6) - 用 replace () 函数处理不合理数据

That's it about replace().

Pandas 数据分析

本作品采用《CC 协议》，转载必须注明作者和本文链接

Rachel

金牌译者 610 声望

暂无个人描述~

0 人点赞

讨论数量: 0

(=￣ω￣=)··· 暂无内容！

讨论应以学习和精进为目的。请勿发布不友善或者负能量的内容，与人为善，比聪明更重要！

帮助

Pandas 基础 (6) - 用 replace () 函数处理不合理数据

社区赞助商

关于 LearnKu

资源推荐

服务提供商

其他信息

Pandas 基础 (6) - 用 replace () 函数处理不合理数据

社区赞助商

关于 LearnKu

资源推荐

服务提供商

其他信息

请登录