返回 登录
0

专访星环科技创始人孙元浩:探索大数据价值深化行业应用

2016年12月8-10日,由中国计算机学会(CCF)主办,CCF大数据专家委员会承办,中国科学院计算技术研究所、中科天玑数据科技股份有限公司与CSDN共同协办,以“聚焦行业最佳实践,数据与应用的深度融合”为主题的2016中国大数据技术大会在北京新云南皇冠假日酒店圆满落幕。

星环科技董事长&CTO孙元浩发表《大数据技术的最新进展和潜在应用》主题演讲,孙元浩表示在数据仓库领域发展到现在已经得到四个定论,即分布式计算已逐步成为主流计算方式、交互式分析技术日益成熟、数据分析算法逐渐丰富,工具普及化以及融合事件驱动和批处理引擎等。会后,孙元浩接受CSDN记者专访,就大数据发展情况、新趋势以及星环科技大数据产品做详细介绍。

图片描述

星环科技创始人&CTO孙元浩

孙元浩毕业于南京大学计算机系,2003年加入英特尔,曾是英特尔亚太研发有限公司数据中心软件部亚太区CTO,负责英特尔Hadoop发行版的研发和产品化工作。
2013年离开英特尔创办星环科技,致力于Hadoop之上的高效计算引擎和数据分析算法的研发。孙元浩曾是英特尔Hadoop发行版的创始人,带领团队研发企业级Hadoop发行版,并对Hadoop做出多项功能增强和改进,以满足不同行业对Hadoop的功能需求。孙元浩及其团队在中国成功建立数百个Hadoop成功案例,积极推动了大数据方案在中国的落地和实施。

Hadoop迎历史转折点

谈及Hadoop发展历程,孙元浩表示在过去几年中,Hadoop一直处于尝试当中,探索行业中到底会产生多少价值。而到了今年,大数据的需求量增长很快,大概是去年的三到五倍,并且商业应用变得更加深入,孙元浩认为大数据应用将迎来转折点,并且已经有不少客户在使用大数据管理平台。

而在数据仓库领域,该技术本身已经运行了几十年,但过去一直采用传统的关系型数据库的方式,当数据量猛增后,则出现了处理效率低下和非结构化数据不能处理的问题。特别是当数据收集起来后,很难挖掘数据背后的价值,想用机器学习来做,数据库又缺乏这种技术手段,所以当下数据仓库本身也发生了一些衍变,如传统数据仓库、逻辑数据仓库、操作型数据仓库以及机器学习数据仓库。

云上的大数据服务

孙元浩认为,当前在大数据领域的用户可分为三层,即金字塔型。顶端的是高端客户、大型企业,目前这类用户大数据平台很少在云端部署,自建居多;但处在中间的中型用户和底端的小型客户,却很需要通过公有云的方式提供大数据服务,毕竟投资建设一个大数据平台的成本还是很大的,大数据云平台更适合这类用户。

而星环科技首度与微软牵手,在其Azure平台上部署大数据平台,让企业用户可以快速享有与巨头企业同样的大数据管理平台,降低企业成本,且目前星环科技的TDH(Transwarp Data Hub)大数据平台是为用户提供免费试用版,用户仅需购买微软的虚拟机即可立即享有大数据管理平台。

为了方便用户快速部署TDH大数据管理平台,星环科技还推出了自己的云操作系统TOS(Transwarp Operating System),孙元浩表示,之所以推出该系统主要基于两个维度考虑:

其一,就大数据本身的发展而言,调度器和资源管理层是合在一起的,是计算引擎和资源类框架融合为一的,这样无法支持其他引擎。并且通用的资源调度框架不能对CPU、内存做到很好的隔离,通用性不够,且仅支持少量的计算引擎,因此需要开发新的资源调度框架。

其二,这也是客户需求和市场驱动所导致的,大数据平台的投入比较高,当客户建立一个大的集群后,还要共享给很多用户,但在虚拟机上跑大数据平台效率非常低,IO性能损失将达到40%—50%。而大数据本身对IO的要求非常高,从目前来看,容器化方案和大数据融合是最佳的技术路线。

挖掘数据背后的价值

随着互联网的不断发展,各行各业的数据量增长的速度是非常惊人的,企业不仅要管理好自身的数据,更应利用科学的手段,挖掘数据背后的价值。对此,孙元浩表示,几年前大家普遍开始关注机器学习领域,并发现利用机器学习的方法分析大数据比传统方法和基于规则研究的方法更准确。在这类行业客户中,星环科技在金融、交通、政府等诸多行业已经开始运用机器学习的方法,帮助客户分析数据的价值,如金融领域中帮忙客户做营销等。

第二块是做风险分析,如帮助银行分析贷前、贷中、贷后的客户还贷风险,甚至帮忙他们预测坏账。在能源行业,如风力发电机将数据搜集上来以后,通过机器学习的方法,可以预测风机、齿轮和叶片的故障,这样可以做到提前预防,大大减少故障的发生概率。

在交通领域同样如此,每天产生的大量数据后,经过机器学习可以分析出很多有价值的东西,如帮助交通部门做规划,治理城市的交通拥堵,当然也可以做一些重点分析,对后续的道路规划都能起到重要的参考作用。

流处理技术助力大数据管理平台

谈及大数据管理平台,孙元浩认为流处理技术显得非常关键,早期的流处理技术是事件驱动,每来一个事情就会立即处理。但大部分引擎并不支持复杂的应用逻辑,所以要把应用改成按事件的方式来写会非常困难;而流处理技术被提出后,其处理方式则是按批处理。

看上去好像解决了上述难题,但在实际应用中仍然要面临复杂的环境,这就要求非常低的延时,这样就需要一个既是低延时的引擎,又需要是事件来驱动,同时还要提供复杂的批处理逻辑。而星环科技通过一年半的努力,终于攻破了这个难题,并且也是目前唯一一个能把这两种引擎放在一起的企业。

在最新的Gartner 2016年数据仓库及数据管理解决方案魔力象限中,星环科技被评选为全球最具远见且唯一上榜的中国厂商,足可以看出星环科技目前在大数据领域所处的领先地位。

大数据新进展新趋势

谈及国内外大数据发展差异,孙元浩认为,整体发展而言,国外还是比较领先的,毕竟许多技术的原创性都在国外,但在某些领域而言,国内是要领先国外产品的,如星环科技的Inceptor SQL引擎和流处理技术,并且在客户应用的复杂程度方面都要超过美国市场。

谈及星环科技产品本身,孙元浩表示其目标是通用化、产品化,希望每个行业都不要去定制,而是将产品标准化,这样可以降低彼此的成本。而推广形式上星环科技还是希望通过合作伙伴进行推广,而这也需要建立一个生态,通过合作伙伴将行业内的各类应用打通,实现深度定制的应用。

对于大数据未来的发展,孙云浩认为大概在四个方面会有长足的进步:首先,在替代数据库方面,主要是用新的引擎来处理大规模数据,数据仍然是结构化数据;其次,处理非结构化数据,这块主要用到深度学习来处理图像、语音、人机交互等;再次,在实时计算中主要是流计算,如何将批处理和事件处理两个模型融合起来;最后,在数据挖掘和数据分析的工具,其目的是将机器学习变得普及化。

最后,孙元浩也谈到了BDTC大会,他表示自2011年开始参加BDTC,到今年已经是第六次参加了。孙元浩认为BDTC大会技术氛围比较浓,有大量的技术人员、开发者、客户来参加,内容质量比较高,未来也希望能有更深度的合作。而从近几年BDTC大会的发展来看,其规模越来越大,说明市场对大数据的热度还是比较高的,希望未来在技术内容和行业深化应用方面继续深化,能有更多的鲜活案例和标杆性案例出来,推动技术的不断前进。

评论