数据清洗--python
数据清洗–python1.1引言对于处理大数据问题,首先就是要进行数据预处理,排除掉那些那些很离谱的数据,当然我们肯定不能一个一个用眼睛来找(容易累死),所以我们就要学会如何用程序来进行数据的预处理,我们常常用两种语言:matlab和python,这里我先介绍一下用python进行数据清洗。1.2准备首先去官网安装python ,然后打开你的控制台,在里面输入pip install nu...
·
数据清洗–python
1.1引言
对于处理大数据问题,首先就是要进行数据预处理,排除掉那些那些很离谱的数据,当然我们肯定不能一个一个用眼睛来找(容易累死),所以我们就要学会如何用程序来进行数据的预处理,我们常常用两种语言:matlab和python,这里我先介绍一下用python进行数据清洗。
1.2准备
首先去官网安装python ,然后打开你的控制台,在里面输入
pip install numpy
pip install pandas
1.3数据清洗
1)数据读取
import numpy as np
import pandas as pd
loandata = pd.DataFrame(pd.read_excel('你的excel文件名.xlsx'))
2)重复值处理
loandata.duplicated()#寻找重复值
loandata.drop_duplicates()#删除重复值
3)空值即缺失值处理
loandata.isnull()#寻找空值,返回bool类型
loandata.notnull()#寻找非空值
loandata.fillna(0)#空值用0填充
loandata.dropna()#空值舍去
4)异常值,极端值处理
loandata.describe().astype(np.int64).T#使用describe函数可以生成描述统计结果,大体检测是否有异常,极端值
loandata.replace([100000,36],loandata['你的项目中的一项'].mean())#异常值替换
loandata['你的项目中的一项']=loandata['你的项目中的一项'].astype(np.int64)#更改数据格式
更多推荐
已为社区贡献2条内容
所有评论(0)