mahout 中聚类算法kmeans案例

早上的阳光

2326人浏览 · 2016-02-24 10:33:03

早上的阳光 · 2016-02-24 10:33:03 发布

最近在学习Hadoop 之家Mahout ，看了一些博客觉得挺不错的，记录下来以备学习也和大家分享.

1. 聚类算法kmeans

聚类分析是数据挖掘及机器学习领域内的重点问题之一，在数据挖掘、模式识别、决策支持、机器学习及图像分割等领域有广泛的应用，是最重要的数据分析方法之一。聚类是在给定的数据集合中寻找同类的数据子集合，每一个子集合形成一个类簇，同类簇中的数据具有更大的相似性。聚类算法大体上可分为基于划分的方法、基于层次的方法、基于密度的方法、基于网格的方法以及基于模型的方法。

k-means algorithm算法是一种得到最广泛使用的基于划分的聚类算法，把n个对象分为k个簇，以使簇内具有较高的相似度。相似度的计算根据一个簇中对象的平均值来进行。它与处理混合正态分布的最大期望算法很相似，因为他们都试图找到数据中自然聚类的中心。

算法首先随机地选择k个对象，每个对象初始地代表了一个簇的平均值或中心。对剩余的每个对象根据其与各个簇中心的距离，将它赋给最近的簇，然后重新计算每个簇的平均值。这个过程不断重复，直到准则函数收敛。

公式和描述很不错的博客：

http://blog.csdn.net/itplus/article/details/10088429

结合上面的博客再看看以下案例相信你肯定有收获的：

http://blog.fens.me/hadoop-mahout-maven-eclipse/

以下myeclipse 下的代码

http://download.csdn.net/detail/u010011737/9441453