数据挖掘和知识发现

数据挖掘是从大量的数据中通过算法搜索隐藏于其中的信息的过程。
数据挖掘通常与计算机科学有关,并通过,在线分析处理,情报检索,机器学习,专家系统(像依靠过去的经验法则)和模式识别等诸多方法来实现上述目标。
知识发现(KDD Knowlege Discovery in Database,KDD):知识发现是所谓“数据挖掘”的一种更广义说法,从从各种信息中,根据不同的需求获得知识的过程。知识发现的目的是向使用者屏蔽原始数据的繁琐细节,从原始数据中提炼出有效的新颖的,潜在的知识,直接向使用者报告。
KDD表示将低层数据转换为高层知识的整个过程。
区别:虽然
数据挖掘是知识发现过程的核心
,但它通常仅占KDD的一部分(大约是15% 到25%) 。因此数据挖掘仅仅是整个KDD过程的一个步骤,对于到底有多少步以及哪一步必须包括在KDD过程中没有确切的定义

技术:
典型技术
典型的基于算法的知识发现技术包括:或然性和最大可能性估计的贝叶斯理论 、衰退分析、最 近邻、决策树、K一方法聚类、关联规则挖掘 、Web和搜索引擎、数据仓库和联机分析处理(On—line Analytical Processing,OLAP) 、神经网络、遗传算法、模糊分类和聚类、粗糙分类和规则归纳等。这些技术都很成熟,并且在相关书籍文章上都有详细介绍。这里介绍一种基于可视化的方法。
创新技术
基于可视化方法是在图形学、科学可视化和信息可视化等领域发展起来的,包括:
几何投射技术。是指通过使用基本的组成分析、因素分析、多维度缩放比例来发现多维数据集的有趣投影。
②基于图标技术。是指将每个多维数据项映射为图形、色彩或其他图标来改进对数据和模式的表达。
③面向像素的技术。其中每个属性只由一个有色像素表示,或者属性取值范围映射为一个固定的彩色图。④ 层次技术。指细分多维空间,并用层次方式给出子空间。
⑤基于图表技术。是指通过使用查询语言和抽取技术以图表形式有效给出数据集。
⑥ 混合技术。是指将上述两种或多种技术合并到一起的技术。

聚类分析:
举例说明怎么样聚类分析:
聚类分析是把一组数据按照相似性和差异性分为几个类别,其目的是使得属于同一类别的数据间的相似性尽可能大,不同类别中的数据间的相似性尽可能小。
它可以应用到客户群体的分类、客户背景分析、客户购买趋势预测、市场的细分等。

Logo

CSDN联合极客时间,共同打造面向开发者的精品内容学习社区,助力成长!

更多推荐