数据挖掘-绪论
数据挖掘Chap1绪论数据挖掘:在大型数据存储库中,自动地发现有用的信息的过程;更严谨的表述:数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、潜在的有用的信息和知识的过程;数据库知识发现KDD过程:输入数据->数据预处理->数据挖掘->后处理->信息;数据预处理:将未加工的输入数据转换为适合分析的形式;数据挖掘需要解
数据挖掘
Chap1绪论
-
数据挖掘:在大型数据存储库中,自动地发现有用的信息的过程;
- 更严谨的表述:数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、潜在的有用的信息和知识的过程;
-
数据库知识发现KDD过程:输入数据->数据预处理->数据挖掘->后处理->信息;
- 数据预处理:将未加工的输入数据转换为适合分析的形式;
-
数据挖掘需要解决的问题:可伸缩、高维性、异种数据和复杂数据、数据的所有权与 分布、非传统的分析;
-
数据挖掘任务2大类
- 预测任务:根据说明变量属性值预测目标变量属性值;
- 预测建模:分类(预测离散的目标变量)和回归(预测连续的目标变量);
- 关联分析:用于发现描述数据中强关联特征的模式;
- 聚类分析:旨在发现密切相关的观测值组群,使得与属于不同簇的观测值相比,属于同一簇的观测值相互之间尽可能相似;
- 异常检测:识别某个显著不同于其他数据的特征的观测值;发现异常点/离群点,避免错误地将正常的对象标注为异常点;
- 描述任务:导出概括数据中潜在联系的模式,探查性的;
- 预测任务:根据说明变量属性值预测目标变量属性值;
问题
-
简要回答导致数据挖掘产生的原因。
a) 从商业视角来看,随着计算机的普及大量数据正在被收集和存储,企业需要从数据中分析得到有用信息作出正确决策;
b) 从科学视角来看,天文、地理、互联网等各个领域正在快速收集和存储大量数据,科学家需要在海量数据下对数据的分类和分段,进行假说成因分析与验证工作;
c) 从数据处理视角来看,目前收集的数据包括结构化、非结构化、半结构化数据,传统技术无法处理某些原始数据,需要新的数据结构和技术方法;
d) 从数据分析结果来看,海量数据通常包含隐藏的有用信息,而传统分析技术所需时间长,因而需要更高效的技术。
-
什么是数据挖掘,数据挖掘的本质是什么?
a) 数据挖掘是指在大型的数据存储中,自动发现有用信息的过程;
b) 数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程;
-
数据挖掘与传统数据分析之间的主要差异是什么?
a) 数据挖掘与传统数据分析之间的主要差异是,数据挖掘是在没有明确假设的前提下去挖掘信息、发现知识;
b) 数据挖掘所得到的信息具有先前未知、有效和可实用三个特征;
c) 前未知的信息是指该信息是预先未曾预料到的,即数据挖掘是要发现那些不能靠直觉发现的信息或知识,甚至是违背直觉的信息或知识,挖掘出的信息越是出乎意料,就可能越有价值;
-
要从海量原始数据中获得有用信息或知识,主要应该包含哪几个阶段?
a) 对原始数据集进行数据清洗得到目标数据集;
b) 对目标数据集进行选择得到任务相关的数据集;
c) 对任务相关数据集进行数据挖掘得到分析结果;
d) 对分析结果进行模式评估得到知识;
-
简述数据、信息、知识的异同。
a) 数据是未经组织的、有关特定事物的原始记录;
b) 信息是有时效性的、有含义的、有组织的、经过计算的、对决策有价值的数据流;
c) 知识是人们经过对信息的归纳、演绎、比较等手段进行挖掘后,总结出的有价值的部分;
-
简要回答数据挖掘所面临的主要挑战。
a) 可伸缩性:需要能处理GB、TB、PB级别的数据,能处理指数性搜索问题,可能需要新的数据结构;
b) 高维性:需要能够处理包含过多属性的数据,面对高维度数据时仍有良好的效率;
c) 复杂和异种数据:需要能处理复杂的数据类型,结构化与半结构化的数据,需要考虑复杂数据中的联系比如时空相关性、图的连续性等;
d) 数据质量:需要能处理包含空缺、噪声、离群点的数据,需要对不同特征的数据集有不同的度量标准;
e) 数据所有权与分布:需要能处理分布存放、不同归属的数据,降低计算通讯量,需要能从多个数据源得到统一的结果;
f) 非传统的分析:需要能自动地产生评估和假设;
更多推荐
所有评论(0)