特征工程---特征预处理

1. 什么是特征预处理1.1 特征预处理定义通过⼀些转换函数将特征数据转换成更加适合算法模型的特征数据过程为什么我们要进⾏归⼀化/标准化？特征的单位或者⼤⼩相差较⼤，或者某特征的⽅差相⽐其他的特征要⼤出⼏个数量级，容易影响（⽀配）⽬标结果，使得⼀些算法⽆法学习到其它的特征1.2 包含内容(数值型数据的⽆量纲化)归⼀化标准化1.3 特征预处理APIsklearn.preprocessing2 归⼀

小玩偶啊

1123人浏览 · 2022-03-13 16:28:58

小玩偶啊 · 2022-03-13 16:28:58 发布

1. 什么是特征预处理

1.1 特征预处理定义

通过⼀些转换函数将特征数据转换成更加适合算法模型的特征数据过程
在这里插入图片描述

为什么我们要进⾏归⼀化/标准化？
特征的单位或者⼤⼩相差较⼤，或者某特征的⽅差相⽐其他的特征要⼤出⼏个数量级，容易影响（⽀配）⽬标结果，使得⼀些算法⽆法学习到其它的特征

1.2 包含内容(数值型数据的⽆量纲化)

归⼀化
标准化

1.3 特征预处理API

sklearn.preprocessing

2 归⼀化

2.1 定义

通过对原始数据进⾏变换把数据映射到(默认为[0,1])之间

2.2 公式

在这里插入图片描述

作⽤于每⼀列，max为⼀列的最⼤值，min为⼀列的最⼩值,那么X’’为最终结果，mx，mi分别为指定区间值默认 mx为1,mi为0

2.3 API

sklearn.preprocessing.MinMaxScaler (feature_range=(0,1)… )

MinMaxScalar.fit_transform(X)
------X:numpy array格式的数据[n_samples,n_features]
返回值：转换后的形状相同的array

2.4 数据计算

我们对以下数据进⾏运算，在dating.txt中。保存的就是之前的约会对象数据

milage,Liters,Consumtime,target
40920,8.326976,0.953952,3
14488,7.153469,1.673904,2
26052,1.441871,0.805124,1
75136,13.147394,0.428964,1
38344,1.669788,0.134296,1

1、实例化MinMaxScalar
2、通过fit_transform转换

import pandas as pd
from sklearn.preprocessing import MinMaxScaler,StandardScaler

def minmax_demo():
    '''
    归一化演示
    :return:
    '''
    data=pd.read_csv("./data/dating.txt")
   # print(data)
    # 1. 实例化
    transfer=MinMaxScaler(feature_range=(3,5))
    # 2. 进行转换，调用fit_transform
    ret_data=transfer.fit_transform(data[["milage","Liters","Consumtime"]])
    print("归一化处理后的结果\n",ret_data)

归一化的结果：
在这里插入图片描述
问题：如果数据中异常点较多，会有什么影响？

2.5 归⼀化总结

注意最⼤值最⼩值是变化的，另外，最⼤值与最⼩值⾮常容易受异常点影响，所以这种⽅法鲁棒性较差，只适合传统精确⼩数据场景。

3 标准化

3.1 定义

通过对原始数据进⾏变换把数据变换到均值为0,标准差为1范围内

3.2 公式

在这里插入图片描述

作⽤于每⼀列，mean为平均值，σ为标准差

对于归⼀化来说：如果出现异常点，影响了最⼤值和最⼩值，那么结果显然会发⽣改变
对于标准化来说：如果出现异常点，由于具有⼀定数据量，少量的异常点对于平均值的影响并不⼤，从⽽⽅差改变较⼩

3.3 API

sklearn.preprocessing.StandardScaler( )

处理之后每列来说所有数据都聚集在均值0附近标准差差为1
StandardScaler.fit_transform(X)
----- X:numpy array格式的数据[n_samples,n_features]
返回值：转换后的形状相同的array

3.4 数据计算

同样对上⾯的数据进⾏处理
分析

实例化StandardScaler
通过fit_transform转换

import pandas as pd
from sklearn.preprocessing import MinMaxScaler,StandardScaler

def stand_demo():
    '''
    标准化演示
    :return:
    '''
    data=pd.read_csv("./data/dating.txt")
   # print(data)
    # 1. 实例化
    transfer=StandardScaler()
    # 2. 进行转换，调用fit_transform
    ret_data=transfer.fit_transform(data[["milage","Liters","Consumtime"]])
    print("标准化处理后的结果\n",ret_data)
    print("每一列的方差为：\n",transfer.var_)
    print("每一列的均值：\n",transfer.mean_)

在这里插入图片描述

3.5 标准化总结

在已有样本⾜够多的情况下⽐较稳定，适合现代嘈杂⼤数据场景。

4 总结

在这里插入图片描述

CSDN学习社区

CSDN联合极客时间，共同打造面向开发者的精品内容学习社区，助力成长！

更多推荐

嵌入式作业（七）：基于Ardunio的STM32串口通信

嵌入式作业（七）0作业要求1Ardunio 完成STM32的串口通信（1）安装Ardunio IDE（2）stm32串口通信2关于 stduino IDE0作业要求安装 Ardunio IDE 和相关软件支持库，在Ardunio 完成STM32板子的串口通信程序：（1）持续向串口输出“Hello world！”；（2）当接收到“stop!”时，停止输出。网上有一个国人版的MCU集成开发平台， st

CSDN学习社区

JDBC详解

JDBC文章目录JDBC什么是JDBC?JDBC驱动程序:Java使用JDBC访问数据库的步骤:设置classpath:Oracle连接字符串的书写格式:简单的例子:常用数据库的驱动程序及JDBC URL:Oracle数据库:SQL Server数据库MySQL数据库Access数据库PreparedStatement接口:JNDI-数据源（Data Source）与连接池（Connection

CSDN学习社区

“模式识别与机器学习”学习笔记no2.再谈感知机

接**上篇：上篇主要进行了PLA，Pocket算法的理论过程分析和在给定数据集上利用pocket算法对数据集进行分类学习，得到错分数量最少的分类面。上篇中pocket算法的过程已经进行了编程和测试，框架已经建立了起来，这一篇主要上篇中没有提到或涉及不深的几个问题。1.数据集的构造。上篇是直接使用了题目给的向量，这次来根据正态分布来产生数据集。np.random.normal函数可以根据均值和方差生