【数据挖掘】第二章认识数据

数据挖掘第二章认识数据未来的世界是三元世界：物理空间；人类社会空间；信息空间2.1 数据的类型举例：交易数据文档数据网络数据基因序列环境数据什么是数据？数据是对象及其属性的集合，可以表示为矩阵。数据可以理解为高维空间的一个点属性类型分类的* 标称：男or女* 序数：本科，硕士，博士数值的* 区间：今天的温度为15~28度* 比率：今天A股大盘跌2.26%规范化、距离、角度规范化：对数据进行归一化

繁星¹⁸⁹⁵

1048人浏览 · 2022-04-21 17:25:07

繁星¹⁸⁹⁵ · 2022-04-21 17:25:07 发布

数据挖掘

第二章认识数据

未来的世界是三元世界：物理空间；人类社会空间；信息空间

2.1 数据的类型

举例：

交易数据
文档数据
网络数据
基因序列
环境数据

什么是数据？

数据是对象及其属性的集合，可以表示为矩阵。数据可以理解为高维空间的一个点

属性类型

分类的
* 标称：男or女
* 序数：本科，硕士，博士
数值的
* 区间：今天的温度为15~28度
* 比率：今天A股大盘跌2.26%

规范化、距离、角度

规范化：对数据进行归一化，标准化等操作。比如减去平均数除以标准差
欧式距离：就是最常用的那种距离。
余弦距离：两个向量夹角的余弦值，值越大，夹角越小，说明两个向量几乎同向，相关性越高。可用来判断两个向量相关性，比如用于人脸识别。

概率观点

比如分析某属性的概率分布。

概率分布函数
- 概率密度函数：pdf
- 概率质量函数：pmf，样本为某些离散值的概率
常用概率分布
- 伯努利分布
- 二项分布

数据质量

噪声和异常值
缺失值
重复数据

采样

简单随机采样
- 选择任何对象的概率相同
- 无放回采样
- 有放回采样
分层采样
样本大小

属性转换

非线性函数：幂函数，指数函数，对数函数
标准化

维度灾难和维度约减

目的：

避免维度灾难
减少数据挖掘算法所需的时间和内存
让数据更容易可视化
有助于消除不相关特征或减少噪音

方法：

主成分分析(PLA)
奇异值分解（SVD）
TSNE：将高维数据在2，3维可视化

特征子集的选择

也是一种数据降维

后处理

可视化：直观，人眼是强大的分析工具

CSDN学习社区

CSDN联合极客时间，共同打造面向开发者的精品内容学习社区，助力成长！

更多推荐

cover

Kaldi之父，IEEE Fellow，小米首席语音科学家Daniel Povey将出席2024全球机器学习技术大会并发表演讲！

CSDN学习社区

cover

探索神经网络在商品销售和图像识别中的应用

CSDN学习社区

cover

基于stm32F103的座面声控台灯

CSDN学习社区

所有评论(0)

查看更多评论

繁星¹⁸⁹⁵

@weixin_43693967

已为社区贡献3条内容