数据挖掘

第二章 认识数据

未来的世界是三元世界:物理空间;人类社会空间;信息空间

2.1 数据的类型

举例:

  • 交易数据
  • 文档数据
  • 网络数据
  • 基因序列
  • 环境数据
什么是数据?

数据是对象及其属性的集合,可以表示为矩阵。数据可以理解为高维空间的一个点

属性类型
  • 分类的
    * 标称:男or女
    * 序数:本科,硕士,博士
  • 数值的
    * 区间:今天的温度为15~28度
    * 比率:今天A股大盘跌2.26%
规范化、距离、角度
  • 规范化:对数据进行归一化,标准化等操作。比如减去平均数除以标准差
  • 欧式距离:就是最常用的那种距离。
  • 余弦距离:两个向量夹角的余弦值,值越大,夹角越小,说明两个向量几乎同向,相关性越高。可用来判断两个向量相关性,比如用于人脸识别。
概率观点

比如分析某属性的概率分布。

  • 概率分布函数
    • 概率密度函数:pdf
    • 概率质量函数:pmf,样本为某些离散值的概率
  • 常用概率分布
    • 伯努利分布
    • 二项分布
数据质量
  • 噪声和异常值
  • 缺失值
  • 重复数据
采样
  • 简单随机采样
    • 选择任何对象的概率相同
    • 无放回采样
    • 有放回采样
  • 分层采样
  • 样本大小
属性转换
  • 非线性函数:幂函数,指数函数,对数函数
  • 标准化
维度灾难和维度约减

目的:

  • 避免维度灾难
  • 减少数据挖掘算法所需的时间和内存
  • 让数据更容易可视化
  • 有助于消除不相关特征或减少噪音

方法:

  • 主成分分析(PLA)
  • 奇异值分解(SVD)
  • TSNE:将高维数据在2,3维可视化
特征子集的选择

也是一种数据降维

后处理
  • 可视化:直观,人眼是强大的分析工具
Logo

CSDN联合极客时间,共同打造面向开发者的精品内容学习社区,助力成长!

更多推荐