数据挖掘

Chap1绪论

  • 数据挖掘:在大型数据存储库中,自动地发现有用的信息的过程;

    • 更严谨的表述:数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、潜在的有用的信息和知识的过程;
  • 数据库知识发现KDD过程:输入数据->数据预处理->数据挖掘->后处理->信息;

    • 数据预处理:将未加工的输入数据转换为适合分析的形式;
  • 数据挖掘需要解决的问题:可伸缩、高维性、异种数据和复杂数据、数据的所有权与 分布、非传统的分析;

  • 数据挖掘任务2大类

    • 预测任务:根据说明变量属性值预测目标变量属性值;
      • 预测建模:分类(预测离散的目标变量)和回归(预测连续的目标变量);
      • 关联分析:用于发现描述数据中强关联特征的模式;
      • 聚类分析:旨在发现密切相关的观测值组群,使得与属于不同簇的观测值相比,属于同一簇的观测值相互之间尽可能相似;
      • 异常检测:识别某个显著不同于其他数据的特征的观测值;发现异常点/离群点,避免错误地将正常的对象标注为异常点;
    • 描述任务:导出概括数据中潜在联系的模式,探查性的;

问题

  1. 简要回答导致数据挖掘产生的原因。

    a) 从商业视角来看,随着计算机的普及大量数据正在被收集和存储,企业需要从数据中分析得到有用信息作出正确决策;

    b) 从科学视角来看,天文、地理、互联网等各个领域正在快速收集和存储大量数据,科学家需要在海量数据下对数据的分类和分段,进行假说成因分析与验证工作;

    c) 从数据处理视角来看,目前收集的数据包括结构化、非结构化、半结构化数据,传统技术无法处理某些原始数据,需要新的数据结构和技术方法;

    d) 从数据分析结果来看,海量数据通常包含隐藏的有用信息,而传统分析技术所需时间长,因而需要更高效的技术。

  2. 什么是数据挖掘,数据挖掘的本质是什么?

    a) 数据挖掘是指在大型的数据存储中,自动发现有用信息的过程;

    b) 数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程;

  3. 数据挖掘与传统数据分析之间的主要差异是什么?

    a) 数据挖掘与传统数据分析之间的主要差异是,数据挖掘是在没有明确假设的前提下去挖掘信息、发现知识;

    b) 数据挖掘所得到的信息具有先前未知、有效和可实用三个特征;

    c) 前未知的信息是指该信息是预先未曾预料到的,即数据挖掘是要发现那些不能靠直觉发现的信息或知识,甚至是违背直觉的信息或知识,挖掘出的信息越是出乎意料,就可能越有价值;

  4. 要从海量原始数据中获得有用信息或知识,主要应该包含哪几个阶段?

    a) 对原始数据集进行数据清洗得到目标数据集;

    b) 对目标数据集进行选择得到任务相关的数据集;

    c) 对任务相关数据集进行数据挖掘得到分析结果;

    d) 对分析结果进行模式评估得到知识;

  5. 简述数据、信息、知识的异同。

    a) 数据是未经组织的、有关特定事物的原始记录;

    b) 信息是有时效性的、有含义的、有组织的、经过计算的、对决策有价值的数据流;

    c) 知识是人们经过对信息的归纳、演绎、比较等手段进行挖掘后,总结出的有价值的部分;

  6. 简要回答数据挖掘所面临的主要挑战。

    a) 可伸缩性:需要能处理GB、TB、PB级别的数据,能处理指数性搜索问题,可能需要新的数据结构;

    b) 高维性:需要能够处理包含过多属性的数据,面对高维度数据时仍有良好的效率;

    c) 复杂和异种数据:需要能处理复杂的数据类型,结构化与半结构化的数据,需要考虑复杂数据中的联系比如时空相关性、图的连续性等;

    d) 数据质量:需要能处理包含空缺、噪声、离群点的数据,需要对不同特征的数据集有不同的度量标准;

    e) 数据所有权与分布:需要能处理分布存放、不同归属的数据,降低计算通讯量,需要能从多个数据源得到统一的结果;

    f) 非传统的分析:需要能自动地产生评估和假设;

Logo

CSDN联合极客时间,共同打造面向开发者的精品内容学习社区,助力成长!

更多推荐