返回 登录
2

大数据集群部署与管理

**内容概览
一、大数据集群技术的概述
二、大数据集群技术的架构与分析
三、大数据集群的部署
四、大数据集群的管理与监控
五、结束语
**
一、大数据集群技术的概述
让我们从有趣的 “啤酒与尿布” 故事说起,在美国沃尔玛连锁超市,人们发现了一个特别有趣的现象:尿布与啤酒这两种风马牛不相及的商品居然摆在一起,但这一奇怪的举措居然使尿布和啤酒的销量大幅增加了。这并非一个笑话,而是一个真实案例。原来,美国的妇女通常在家照顾孩子,所以她们经常会嘱咐丈夫在下班回家的路上为孩子买尿布,而丈夫在买尿布的同时又会顺手购买自己爱喝的啤酒。这个发现为商家带来了大量的利润,但是如何从浩如烟海却又杂乱无章的数据中,发现啤酒和尿布这个看似不相干的物品销售之间的联系呢?这就是大数据的威力。大数据在我们的生活中,发挥着越来越明显的作用。比如,大数据辅助购物平台推荐适合客户的产品,大数据辅助避免堵车,大数据辅助做健康检查,大数据娱乐等。
对于很多公司来说,数据是有的,但是是”死”数据,并不能发挥作用,或者产生的价值不到实际价值的冰山一角。如果想从大数据中获利,数据的采集、挖掘和分析等环节缺一不可,其中,大数据分析技术是重中之重,目前的大数据分析技术有 Hadoop、Spark、Strom 中。要想从一大堆看似杂乱无章的数据中总结出规律,需要对这些数据进行一番非常复杂的计算分析。由于数据量之大,对计算的速度和精度要求都比较高,单纯的通过不断增加处理器的数量来增强单个计算机的计算能力已经达不到预想的效果,那么,大数据处理的方向逐渐的朝着分布式的计算集群来发展,将分布在不同空间的计算机通过网络相互连接组成一个有机的集群,然后将需要处理的大量数据分散到这个集群中,交由分散系统内的计算机组,同时计算,最后将这些计算结果合并得到最终的结果。尽管分散系统内的单个计算机的计算能力不强,但是由于每个计算机只计算一部分数据,而且是多台计算机同时计算,所以就分散系统而言,处理数据的速度会远高于单个计算机。
那么如何部署和管理大数据集群,则是业界持续讨论的话题,本文以 IBM Platform Converge 为例,来阐述大数据集群部署、架构以及管理。IBM Platform Converge 是一种复杂的大数据处理平台(方案),此方案可以从若干个物理机/虚拟机(可能在云端)开始,可以比较方便的部署一个大数据集群,并且管理和监控此集群。此平台包括了若干个大数据技术和集群技术,比如 xCAT、Spark、ELK、GPFS 等。此集群的优点是节点的数量和存储的空间都具有弹性,也就是说,可以随时根据业务和应用的需求,来增加或者删除集群中的节点和存储空间,依次来节省成本。
二、大数据集群技术的架构与分析
一般来说,大数据集群的构架,主要分为几层:硬件层、OS 层、基础设施管理层、文件系统层、大数据集群技术层以及上层应用,如下图 1 所示。
图片描述
详细内容请点击链接内容

评论