数据挖掘笔记(更新中...)
数据挖掘一、概念第一章1、数据挖掘:数据挖掘就是从大量数据中,提取潜在有用的信息和知识的过程。其主要目标就是提高决策能力,能在过去的经验基础上预言未来趋势等。2、分类分析:通过分析示例数据库中的数据为每个类别做出准确的描述或建立分析模型或挖掘出分类规则,然后用此分类规则对其它数据库中的记录进行分类。3、聚类分析:聚类分析技术试图找出数据集中的共性和差异,并将具有共性的对象聚合在相应的类中。4、回归
数据挖掘
一、概念
第一章
1、 数据挖掘:数据挖掘就是从大量数据中,提取潜在有用的信息和知识的过程。其主要目标就是提高决策能力,能在过去的经验基础上预言未来趋势等。
2、 分类分析:通过分析示例数据库中的数据为每个类别做出准确的描述或建立分析模型或挖掘出分类规则,然后用此分类规则对其它数据库中的记录进行分类。
3、 聚类分析:聚类分析技术试图找出数据集中的共性和差异,并将具有共性的对象聚合在相应的类中。
4、 回归分析:确定两种或两种以上变数间相互依赖的定量关系的一种分析方法。
5、 关联分析:发现特征之间的相互依赖关系,通常是从给定的数据集中发现频繁出现的模式知识(又称为关联规则)。
6、 离群点检测:发现与众不同的数据。
7、 演化分析:对随时间变化的数据对象的变化规律和趋势进行建模描述。
8、 序列模式挖掘:分析数据间的前后序列关系,包括相似模式发现、周期模式发现等。
9、 描述和可视化:是对数据挖掘结果的表示方式。
10、知识发现:从数据中鉴别出有效模式的非平凡过程,该模式是新的、可能有用的和最终可理解的。
第二章
1、数据:数据对象及其属性的集合,其表现形式可以是数字、符号、文字、图像抑或是计算机代码等等。
2、属性:是指一个对象的某方面性质或特性。
3、数据集:数据对象的集合。
二、解答
第一章
1、 数据挖掘的描述任务。
分类分析、聚类分析、回归分析、关联分析、离群点检测、演化分析、序列模式挖掘、描述和可视化。
2、 聚类与分类的区别。
聚类是一种无指导的观察式学习,没有预先定义的类。而分类问题是有指导的示例式学习,预先定义有类。分类是训练样本包含有分类属性值,而聚类则是在训练样本中找到这些分类属性值。
3、 知识发现的主要步骤。
数据清洗。其作用是清除数据噪声和与挖掘主题明显无关的数据。 数据集成。其作用是将来自多数据源中的相关数据组合到一起。
数据转换。其作用是将数据转换为易于进行数据挖掘的数据存储形式。 数据挖掘。其作用是利用智能方法挖掘数据模式或规律知识。
模式评估。其作用是根据一定评估标准从挖掘结果筛选出有意义的相关知识。
知识表示。其作用是利用可视化和知识表达技术,向用户展示所挖掘的相关知识。
第二章
1、数据集的特性。
维度:指数据集中的对象具有的属性个数总和。 稀疏性:指在某些数据集中,有意义的数据非常少。 分辨率:不同分辨率下数据的性质不同。
2、数据集的类别。
记录数据、基于图形的数据、有序数据。
3、数据预处理的主要任务。
数据清理 填写空缺数据,平滑噪声数据,识别、删除孤立点,解决不一致性 数据集成 集成多个数据库,数据立方体或文件 数据变换 规范化和特征构造
数据归约 得到数据集的压缩表示及特征选择 数据离散化 通过概念分层和数据离散化来规约数据,对数值数据特别重
4、 为什么要清理数据?
数据清理的目的就是试图填充缺失值、去除噪声并识别离群点、纠正数据中的不一致值。
三、公式
第二章
1、均值:
2、加权算术均值:
3、截断均值:要先取一个P,P是0-100之间,题中给出的P=40,那么丢弃掉高低端(40/2)%即20%的数据,题中共有8个数据,就截掉8*20%约等于2个,截掉前两个后两个。
4、中列数:
5、极差:
6、(修正)方差:
7、偏度:
8、峰度:
更多推荐
所有评论(0)