数据挖掘-绪论

数据挖掘Chap1绪论数据挖掘：在大型数据存储库中，自动地发现有用的信息的过程；更严谨的表述：数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中，提取隐含在其中的、人们事先不知道的、潜在的有用的信息和知识的过程；数据库知识发现KDD过程：输入数据->数据预处理->数据挖掘->后处理->信息；数据预处理：将未加工的输入数据转换为适合分析的形式；数据挖掘需要解

小孩的小马甲

340人浏览 · 2021-09-19 13:01:41

小孩的小马甲 · 2021-09-19 13:01:41 发布

数据挖掘

Chap1绪论

数据挖掘：在大型数据存储库中，自动地发现有用的信息的过程；
- 更严谨的表述：数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中，提取隐含在其中的、人们事先不知道的、潜在的有用的信息和知识的过程；
数据库知识发现KDD过程：输入数据->数据预处理->数据挖掘->后处理->信息；
- 数据预处理：将未加工的输入数据转换为适合分析的形式；
数据挖掘需要解决的问题：可伸缩、高维性、异种数据和复杂数据、数据的所有权与分布、非传统的分析；
数据挖掘任务2大类
- 预测任务：根据说明变量属性值预测目标变量属性值；
  - 预测建模：分类（预测离散的目标变量）和回归（预测连续的目标变量）；
  - 关联分析：用于发现描述数据中强关联特征的模式；
  - 聚类分析：旨在发现密切相关的观测值组群，使得与属于不同簇的观测值相比，属于同一簇的观测值相互之间尽可能相似；
  - 异常检测：识别某个显著不同于其他数据的特征的观测值；发现异常点/离群点，避免错误地将正常的对象标注为异常点；
- 描述任务：导出概括数据中潜在联系的模式，探查性的；

问题

简要回答导致数据挖掘产生的原因。

a) 从商业视角来看，随着计算机的普及大量数据正在被收集和存储，企业需要从数据中分析得到有用信息作出正确决策；

b) 从科学视角来看，天文、地理、互联网等各个领域正在快速收集和存储大量数据，科学家需要在海量数据下对数据的分类和分段，进行假说成因分析与验证工作；

c) 从数据处理视角来看，目前收集的数据包括结构化、非结构化、半结构化数据，传统技术无法处理某些原始数据，需要新的数据结构和技术方法；

d) 从数据分析结果来看，海量数据通常包含隐藏的有用信息，而传统分析技术所需时间长，因而需要更高效的技术。
什么是数据挖掘，数据挖掘的本质是什么？

a) 数据挖掘是指在大型的数据存储中，自动发现有用信息的过程；

b) 数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中，提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程；
数据挖掘与传统数据分析之间的主要差异是什么？

a) 数据挖掘与传统数据分析之间的主要差异是，数据挖掘是在没有明确假设的前提下去挖掘信息、发现知识；

b) 数据挖掘所得到的信息具有先前未知、有效和可实用三个特征；

c) 前未知的信息是指该信息是预先未曾预料到的，即数据挖掘是要发现那些不能靠直觉发现的信息或知识，甚至是违背直觉的信息或知识，挖掘出的信息越是出乎意料，就可能越有价值；
要从海量原始数据中获得有用信息或知识，主要应该包含哪几个阶段？

a) 对原始数据集进行数据清洗得到目标数据集；

b) 对目标数据集进行选择得到任务相关的数据集；

c) 对任务相关数据集进行数据挖掘得到分析结果；

d) 对分析结果进行模式评估得到知识；
简述数据、信息、知识的异同。

a) 数据是未经组织的、有关特定事物的原始记录；

b) 信息是有时效性的、有含义的、有组织的、经过计算的、对决策有价值的数据流；

c) 知识是人们经过对信息的归纳、演绎、比较等手段进行挖掘后，总结出的有价值的部分；
简要回答数据挖掘所面临的主要挑战。

a) 可伸缩性：需要能处理GB、TB、PB级别的数据，能处理指数性搜索问题，可能需要新的数据结构；

b) 高维性：需要能够处理包含过多属性的数据，面对高维度数据时仍有良好的效率；

c) 复杂和异种数据：需要能处理复杂的数据类型，结构化与半结构化的数据，需要考虑复杂数据中的联系比如时空相关性、图的连续性等；

d) 数据质量：需要能处理包含空缺、噪声、离群点的数据，需要对不同特征的数据集有不同的度量标准；

e) 数据所有权与分布：需要能处理分布存放、不同归属的数据，降低计算通讯量，需要能从多个数据源得到统一的结果；

f) 非传统的分析：需要能自动地产生评估和假设；

CSDN学习社区

CSDN联合极客时间，共同打造面向开发者的精品内容学习社区，助力成长！

更多推荐

嵌入式作业（七）：基于Ardunio的STM32串口通信

嵌入式作业（七）0作业要求1Ardunio 完成STM32的串口通信（1）安装Ardunio IDE（2）stm32串口通信2关于 stduino IDE0作业要求安装 Ardunio IDE 和相关软件支持库，在Ardunio 完成STM32板子的串口通信程序：（1）持续向串口输出“Hello world！”；（2）当接收到“stop!”时，停止输出。网上有一个国人版的MCU集成开发平台， st

CSDN学习社区

JDBC详解

JDBC文章目录JDBC什么是JDBC?JDBC驱动程序:Java使用JDBC访问数据库的步骤:设置classpath:Oracle连接字符串的书写格式:简单的例子:常用数据库的驱动程序及JDBC URL:Oracle数据库:SQL Server数据库MySQL数据库Access数据库PreparedStatement接口:JNDI-数据源（Data Source）与连接池（Connection

CSDN学习社区

“模式识别与机器学习”学习笔记no2.再谈感知机

接**上篇：上篇主要进行了PLA，Pocket算法的理论过程分析和在给定数据集上利用pocket算法对数据集进行分类学习，得到错分数量最少的分类面。上篇中pocket算法的过程已经进行了编程和测试，框架已经建立了起来，这一篇主要上篇中没有提到或涉及不深的几个问题。1.数据集的构造。上篇是直接使用了题目给的向量，这次来根据正态分布来产生数据集。np.random.normal函数可以根据均值和方差生