返回 登录
0

王栋:商业产品基于开源技术架构的主要优势

阅读7688

由CSDN重磅打造的2016中国云计算技术大会(CCTC 2016)将于5月13日-15日在北京举办,大会特设“中国Spark技术峰会”、“Container技术峰会”、“OpenStack技术峰会”、“大数据核心技术与应用实战峰会”等四大技术主题峰会,以及“云计算核心技术架构”、“云计算平台构建与实践”等专场技术论坛。80+位一线互联网公司的技术专家将到场分享他们在云计算、大数据领域的技术实践,目前大会剩票不多,欲购从速。详情请点击CCTC 2016大会官网

在大会开始前,主办方特专访了中国Spark技术峰会的讲师王栋,谈谈他们将在会上分享的内容、相关技术和程序人生,带你领略讲师风采。

图片描述

王栋,分布式计算专家,2008年毕业于西安交通大学软件学院,主要从事分布式和大数据平台的架构与开发工作,对大数据平台上的组件管理和性能监控有丰富的开发经验。

CSDN:请首先介绍自己和所负责的事情。

王栋:我是王栋,自从2008年毕业以后,一直从事分布式计算框架的安装,部署和管理平台的相关开发工作。

CSDN:你从什么时候开始接触Spark或者类似的开源技术框架,从工作上来看,你认为其主要解决的问题是什么?

王栋:我是从2011年开始接触到Hadoop开源社区的,当时主要是为了给所在的产品开发能够支持MapReduce计算框架的管理界面,之后又接触过YARN,Spark,zeppelin和Ambari等Hadoop相关的开源项目。从工作的角度来看,YARN主要解决了分布式集群的资源管理问题,通过统一的资源模型和资源分配方式来给MapReduce,Spark等计算框架提供计算资源。而像MapReduce,Spark这样的计算框架,是对各种不同计算模型的实现,主要用来进行工作负载的管理调度工作。Hadoop发展成今天这样一个庞大的分布式生态系统,随着集群规模的不断扩展,集群中各个组件的管理变得越来越复杂,而Ambari刚好满足了Hadoop集群的安装,部署和监控的需要。

CSDN:你负责的架构部分主要包括了哪些开源分布式计算框架?它们的优势是什么?发挥了什么样的价值?

王栋:我本次的主题主要涉及了MapReduce和Spark两个计算框架,相对来讲,Spark所要解决的问题覆盖面更广一些,MapReduce解决了静态的大数据分析问题,为大数据分析建立了统一的平台,奠定分布式大数据分析的基础。Spark则更进一步,克服了MapReduce计算框架在其他计算模式上的不足,并且充分利用了内存资源来提高了作业的计算效率。

CSDN:这些开源技术框架在生产环境中使用主要面临的问题是?需要额外做一些什么样的调优?

王栋:这些开源技术在生产环境中经常会面临到易用性的问题,包括安装,部署和运维等,主要表现在安装部署比较麻烦,运维中碰到的各种问题难以解决,需要比较高的技术门槛。能够看到社区和各个发行商也在这方面做了大量的工作,但是要让这么一个复杂的分布式系统变得好用和易用并非一朝一夕之功,还需要不断的努力和拓展。

CSDN:对比一些商业产品,你认为基于开源技术的架构主要存在的优势是?

王栋:对于基于开源技术的商业产品,主要优势在我看来有以下几点:

  1. 后发优势,像Hadoop社区,其中的开源核心技术已经相对比较成熟,商业产品基于Hadoop社区的开源技术开发会将目前业界最先进的各种软件开发理念,开发技术还有软件设计思想都一并继承进来,使得商业产品从一开始就能有一个高起点。
  2. 统一的标准,开源技术因为其天生特有的特点,更容易被更多的技术公司所接受,相关产业的上中下游开发人员也更容易获取其核心技术,互联网上的学习资料也会相对比较丰富。因此开源技术更容易成为事实上的行业标准。尤其在Hadoop生态系统中,各种核心的分布式计算框架需要与各种上层应用集成并且二次开发才能最终解决用户的真正问题。基于一个行业的标准,不管是系统开发人员,还是应用开发人员都能够享受到开源技术的便利性和通用性。

CSDN:在生产环境使用中,你们趟了(Spark或者其他的)哪些坑?给用户简单的描述下?

王栋:在生产环境中,我们在使用Hadoop上的各种技术时,碰到过各种安装,维护和管理上的问题,比如最开始的Hadoop集群管理非常不方便,每个模块都要手工去维护,后来引入Ambari,方便了安装和运维。还有在负载监控上,Hadoop上的各种组件都有自己独立的监控借口,但是从使用的角度非常不方便,我们也正在尝试引入像ELK这样的技术来解决这类问题。

CSDN:开源技术的版本更新很大程度上取决于社区的主导者,那么你们又是如何保持与社区与时俱进的,分享一些诀窍吧。

王栋:我们主要通过学习和交流的方式保持与社区的同步。学习上主要是紧跟社区的开源技术发展潮流,对关注的开源社区中的每一个版本升级,新功能的加入都保持敏锐的观察和理解。在交流上我们也经常举办和参加各种社区活动,包括本地的交流和邀请一些社区的活跃专家进行分享等。除了学习和交流,我们还在密切关注社区中各个组件的未来发展方向,希望能够在合适的时机可以参与到社区的开发中去,也为社区的发展做出贡献。

CSDN:您在本次演讲中将分享哪些话题?

王栋:本次演讲将主要分享利用ELK技术来满足Hadoop集群中的负载性能监控问题,结合ELK技术和Ambari技术的众家之长,快速构建一个Hadoop集群上的负载性能监控平台,满足用户对负载监控上的要求。

CSDN:哪些听众最应该了解这些话题?您所分享的主题可以帮助听众解决哪些问题?

王栋: Hadoop集群的管理人员和应用程序的使用人员应该会比较喜欢本次的主题。因为这个分享可以为他们在分布式集群性能监控上提供一种思路,同时也期望能够解决他们在负载管理上的一些问题。

相关阅读:

评论