《数据挖掘概念与技术》第一章
·
第一章
7个部分介绍数据挖掘(kdd数据中的知识发现)
Table of Contents
1.1 为什么数据挖掘
数据的爆炸式增长
数据库和数据管理产业:数据收集、数据库创建、数据管理(数据存储和检索、数据库事务处理)、高级数据分析(数据仓库和数据挖掘)
OLAP联机分析处理
1.2 什么是数据挖掘
知识发现的过程
数据清理、数据集成、数据选择、数据变换、数据挖掘、模式评估、知识表示
1.3 挖掘什么类型的数据
关系数据库数据、数据仓库数据、事务数据和其他等
实体、对象、属性
一个实体可以有多个对象,一个对象可以有多个属性
数据仓库是多个数据源的集合,通过数据清理、数据变换、数据集成、数据装入和定期刷新构造。数据仓库里的数据通常是汇总类型的
1.4 可以挖掘什么类型的模式
数据挖掘功能:
特征化与区分、频繁模式、关联和相关性挖掘、分类与回归、聚类分析、离群点分析。
数据挖掘功能分为两类:描述性和预测性
1)数据特征化、数据区分
2)频繁模式
关联分析(单维关联分析、多维关联分析)
3)用于预测分析的分类和回归
决策树->神经网络
特点:对标记类的分析
4)聚类分析
特点:不存在标记类
根据最大化类内相似性或最小化类内相似性聚类或分组
5)离群点分析
离群点分析也叫异常挖掘
使用统计检验来检测离群点
使用距离度量,将远离任何簇的对象视为离群点
基于密度的方法也可以识别局部区域的离群点
支持度(support)
置信度(confidence)
主观兴趣度度量
1.5 使用什么技术
统计学
统计假设检验
机器学习
监督学习
无监督学习
主动学习
数据库系统与数据仓库
信息检索
1.6 应用
商务智能BI
Web搜索引擎
1.7 数据挖掘的主要问题
挖掘方法、用户交互、有效性和伸缩性、数据类型的多样性、数据挖掘与社会
更多推荐



所有评论(0)