第一章

7个部分介绍数据挖掘(kdd数据中的知识发现)

Table of Contents

第一章

1.1 为什么数据挖掘

1.2 什么是数据挖掘

1.3 挖掘什么类型的数据

1.4 可以挖掘什么类型的模式

1.5 使用什么技术

1.6 应用

1.7 数据挖掘的主要问题


1.1 为什么数据挖掘

数据的爆炸式增长

数据库和数据管理产业:数据收集、数据库创建、数据管理(数据存储和检索、数据库事务处理)、高级数据分析(数据仓库和数据挖掘)

OLAP联机分析处理

1.2 什么是数据挖掘

知识发现的过程

数据清理、数据集成、数据选择、数据变换、数据挖掘、模式评估、知识表示

1.3 挖掘什么类型的数据

关系数据库数据、数据仓库数据、事务数据和其他等

实体、对象、属性

一个实体可以有多个对象,一个对象可以有多个属性

数据仓库是多个数据源的集合,通过数据清理、数据变换、数据集成、数据装入和定期刷新构造。数据仓库里的数据通常是汇总类型的

1.4 可以挖掘什么类型的模式

数据挖掘功能:

特征化与区分、频繁模式、关联和相关性挖掘、分类与回归、聚类分析、离群点分析。

数据挖掘功能分为两类:描述性和预测性

1)数据特征化、数据区分

2)频繁模式

关联分析(单维关联分析、多维关联分析)

3)用于预测分析的分类和回归

决策树->神经网络

特点:对标记类的分析

4)聚类分析

特点:不存在标记类

根据最大化类内相似性或最小化类内相似性聚类或分组

5)离群点分析

离群点分析也叫异常挖掘

使用统计检验来检测离群点

使用距离度量,将远离任何簇的对象视为离群点

基于密度的方法也可以识别局部区域的离群点

支持度(support)

置信度(confidence)

主观兴趣度度量

1.5 使用什么技术

统计学

统计假设检验

机器学习

监督学习

无监督学习

主动学习

数据库系统与数据仓库

信息检索

1.6 应用

商务智能BI

Web搜索引擎

1.7 数据挖掘的主要问题

挖掘方法、用户交互、有效性和伸缩性、数据类型的多样性、数据挖掘与社会

Logo

CSDN联合极客时间,共同打造面向开发者的精品内容学习社区,助力成长!

更多推荐