数据清洗–python

1.1引言

对于处理大数据问题,首先就是要进行数据预处理,排除掉那些那些很离谱的数据,当然我们肯定不能一个一个用眼睛来找(容易累死),所以我们就要学会如何用程序来进行数据的预处理,我们常常用两种语言:matlab和python,这里我先介绍一下用python进行数据清洗。

1.2准备

首先去官网安装python ,然后打开你的控制台,在里面输入

pip install numpy
pip install pandas 

1.3数据清洗

1)数据读取

import numpy as np
import pandas as pd
loandata = pd.DataFrame(pd.read_excel('你的excel文件名.xlsx'))

2)重复值处理

loandata.duplicated()#寻找重复值
loandata.drop_duplicates()#删除重复值

3)空值即缺失值处理

loandata.isnull()#寻找空值,返回bool类型
loandata.notnull()#寻找非空值
loandata.fillna(0)#空值用0填充
loandata.dropna()#空值舍去

4)异常值,极端值处理

loandata.describe().astype(np.int64).T#使用describe函数可以生成描述统计结果,大体检测是否有异常,极端值
loandata.replace([100000,36],loandata['你的项目中的一项'].mean())#异常值替换
loandata['你的项目中的一项']=loandata['你的项目中的一项'].astype(np.int64)#更改数据格式
Logo

CSDN联合极客时间,共同打造面向开发者的精品内容学习社区,助力成长!

更多推荐