数据挖掘笔记（更新中...）

会上树的代码

1547人浏览 · 2022-03-05 00:37:40

会上树的代码 · 2022-03-05 00:37:40 发布

数据挖掘

一、概念

第一章

1、数据挖掘：数据挖掘就是从大量数据中，提取潜在有用的信息和知识的过程。其主要目标就是提高决策能力，能在过去的经验基础上预言未来趋势等。
2、分类分析：通过分析示例数据库中的数据为每个类别做出准确的描述或建立分析模型或挖掘出分类规则，然后用此分类规则对其它数据库中的记录进行分类。
3、聚类分析：聚类分析技术试图找出数据集中的共性和差异，并将具有共性的对象聚合在相应的类中。
4、回归分析：确定两种或两种以上变数间相互依赖的定量关系的一种分析方法。
5、关联分析：发现特征之间的相互依赖关系，通常是从给定的数据集中发现频繁出现的模式知识(又称为关联规则)。
6、离群点检测：发现与众不同的数据。
7、演化分析：对随时间变化的数据对象的变化规律和趋势进行建模描述。
8、序列模式挖掘：分析数据间的前后序列关系，包括相似模式发现、周期模式发现等。
9、描述和可视化：是对数据挖掘结果的表示方式。
10、知识发现：从数据中鉴别出有效模式的非平凡过程，该模式是新的、可能有用的和最终可理解的。

第二章

1、数据：数据对象及其属性的集合，其表现形式可以是数字、符号、文字、图像抑或是计算机代码等等。
2、属性：是指一个对象的某方面性质或特性。
3、数据集：数据对象的集合。

二、解答

第一章

1、数据挖掘的描述任务。

分类分析、聚类分析、回归分析、关联分析、离群点检测、演化分析、序列模式挖掘、描述和可视化。

2、聚类与分类的区别。

聚类是一种无指导的观察式学习，没有预先定义的类。而分类问题是有指导的示例式学习，预先定义有类。分类是训练样本包含有分类属性值，而聚类则是在训练样本中找到这些分类属性值。

3、知识发现的主要步骤。

数据清洗。其作用是清除数据噪声和与挖掘主题明显无关的数据。数据集成。其作用是将来自多数据源中的相关数据组合到一起。
数据转换。其作用是将数据转换为易于进行数据挖掘的数据存储形式。数据挖掘。其作用是利用智能方法挖掘数据模式或规律知识。
模式评估。其作用是根据一定评估标准从挖掘结果筛选出有意义的相关知识。
知识表示。其作用是利用可视化和知识表达技术，向用户展示所挖掘的相关知识。