返回 登录
0

百分点技术负责人:我们为什么需要大数据操作系统

去年9月,百分点公司发布了“全球首款”大数据操作系统BD-OS(基于Lambda架构)。日前,百分点技术副总裁刘译璟和百分点BD-OS产品高级研发总监线刘国栋接受CSDN记者采访,结合BD-OS的设计、研发和架构,对大数据技术演进及应用实践的趋势进行了解读。

所谓“全球首款”,意味着Hadoop、Storm、Spark等当前主流大数据技术的相关从业者几乎听说过“大数据操作系统”的存在(之所以说“几乎”,是因为Intel曾把Hadoop视为大数据操作系统,Apache Hadoop的一位committer联合创立的海绵数据公司也曾推出一款名为Sponge的大数据操作系统,但百分点认为BD-OS首先实现了理论的突破)。那么,BD-OS的研发的意义何在?在百分点看来,一言蔽之,就是填补底层技术到数据应用之间的鸿沟。基于百分点的实践,刘译璟和刘国栋从大数据生命周期的角度阐述了这个核心观点,并介绍了BD-OS的一些应用案例。

百分点眼中的大数据

刘译璟介绍了百分点对大数据的认识。他认为,在整个信息化的方向上,有五个大的趋势:云计算、大数据、物联网、社会化和移动化。在这个数据世界里,大数据处于大脑的地位,要把这些数据进行收集加工转化成信息,甚至转化成知识,最后再通过物联网的技术反馈到现实世界中,不断地产生更多的价值。

大数据最核心的技术是跟人工智能的相关知识是紧密相关的,包括知识表示、自然语言理解、机器学习,还有相关的图象语音识别、机器人,这都属于这个范围,但是为了实现人工智能,特别是机器学习,要处理相当多的数据需要有一些足够坚实的底层架构来支持。像Hadoop技术的诞生,原因就是在搜索相关的智能应用里,原有的技术不能支撑了,所以说,大数据的发展一定是跟着业务或者跟着智能化的技术发展的。

整个大数据的产业主要分成四个方面,第一是底层的基础技术和基础架构。第二是在基础架构上构建各种分析的无论是算法模型等等。第三层次,在分析之上更多结合到行业和业务的应用。当然还有很重要的一点是这里面产生的数据。BD-OS主要偏向于基础软件的层次,但是包含了很多分析应用方面的工具。

整个大数据产业的趋势发展有六个特点。

  1. 更多往具体的应用里做,一定会形成行业的应用。虽然现在很多大数据方面服务过的企业还是偏向通用化,但是最终的业务价值一定是在行业应用里产生的。

  2. 服务化,通过服务的方式为企业和消费者提供服务,而不是提供最原始的软件或者IT基础设施。

  3. 云计算是未来的骨骼,所有的应用都会上到云端,所以云端化是未来的一个趋势。

  4. 企业已经不单单需要一个大数据的底层和大数据某一个存储的方案,而是想要从数据获取到大数据的全链条的端到端的整体的解决方案,企业越来越务实。

  5. 大数据一定变的更加的实用。实用化的四个方面:第一,最基础只是说描述,比如在做一些基础的监控等等方面。第二个方面是诊断,发现里面的一些问题,把这些问题找出来。第三是做一些预测,预测未来整个的趋势,是向好还是向坏,如果向坏的话可能问题发生在什么地方。最高级的一点,就是建议性的一些分析,不止是发现问题、发现趋势,还要告诉企业和用户应该怎么适应这种变化。

  6. 低成本化一直是大数据的一个方向。

一个企业或者一个组织如果想真的应用大数据,必须具备如下条件:

  • 时代:相关的时代必须要到来,即不仅有信息化系统的基础,有很多客户,还要进入到互联网的时代,有较高的数据化的程度。

  • 理念:很多企业主觉得数据是核心资产,原因是他认为数据只有买才能得来,而不是自己的经营过程需要数据化。如果是这样,说到底他并不认为数据能对他的业务产生核心的变化。所以需要真真切切地认为数据能够产生最大的价值。

  • 理论:从现实的业务,到时候可以建模型,中间有非常大的鸿沟,这个鸿沟包括数据如何采集如何建模以及如何把一个业务问题转化成真正的数据的问题,这其实是需要有相当多的经验和人做这件事。这是最麻烦的一件事,只有业务变换成了数学问题,底层的技术才能实现。比如地震预测,数据界并没有把它完全用理论解释清楚,显然没有任何技术手段可以实践这件事。

  • 技术:理论问题解决完以后,要通过一些基础的技术手段来落地。比如说有一些基础架构,或者软件包的形式来实现。

BD-OS就是解决理论以及技术这两方面的问题,把消费者数据化,并驱动企业数据化的经营。百分点大数据产品分为三层,最底下的大数据的技术层,主要解决的是数据的采集获取以及数据如何分析建模这一套东西,以及数据如何运用到具体的业务上,提供这些基本的接口。中间的管理,最后流程的末端能看到用户标签管理以及商品的标签管理,用户画像和产品画像就是通过数据的方式来描述人,也就是人工智能领域的知识表示。有了数据化的消费者的描述以后,将来要做的事情把他应用到具体的业务里。百分点支持三大类的业务:个性化推荐引擎、自动化营销引擎和大数据分析引擎。

图片描述

百分点大数据产品体系

为什么需要大数据操作系统

刘国栋进一步表示,百分点的大数据理想,是希望未来每一个普通的人都具备使用和操作大数据的能力,能够随时利用大数据的能力解决自己的问题。BD-OS定义为大数据操作系统,是百分点基于过去的六七年的大数据研发工程和经验,找到一种很好的技术架构和解决问题的模型,把技术体系和产品体系呈现在OS的框架里。

具体而言,操作系统如Windows、Linux和Unix,解决的问题是让人和机器更容易更快更便捷地交互。目前的大数据领域,以Hadoop为核心的平台产品,在局部上解决人和大数据交互的问题,在不同维度上还出现的一些产品,也在部分场景下解决的一些大数据问题。这种底层技术和算法很多,百分点产品里面就包括20多种,市面上大概有上百种,但和直接解决上层的真正业务需求(如怎么精准的获客,怎么在CRM里面做用户的画像,怎么了解我的产品情况)之间还有一个鸿沟。

图片描述

大数据操作系统的理论基础

实际上人类对数据的管理挖掘和需求越来越旺盛,在解决问题的时候,他所牵扯到的数据量和维度也是不断爆炸,不断增长,如何更好、更轻松地挖掘和管理数据是大问题。大数据操作系统第一件事要解决把数据管理起来,一是从容量上横向扩展,二是在解决不同的数据问题的时候需要不同的数据技术,包括底层的Hadoop、Spark等分布式技术,在管理层面也需要这样的管理框架,要能够即插即用地管理各种各样的计算框架。

大数据操作系统BD-OS把百分点的经验贯穿到产品里面。用户只要按照这些经验做数据采集,去做分析和数据接口,能够直接把应用跟技术对接起来。BD-OS把大数据底层技术标准化,基于标准化提取出了一系列的解决方案和接口,基于解决方案和接口建立起了一个完整的,可持续的这样的一个中间交互层,这个中间交互层的具体落地,可以通过交互层,通过不同的维度使用管理和深入探索挖掘大数据,不用关心底下具体的某种技术和某种问题。

在上面大数据操作系统在这个接口之上,通过大数据操作系统提供的命令行,结构化语言,可拖拽图形交互界面用户可以实现,核心的能力是定制了自己的基于数据生命周期管理模板,百分点认为整个大数据的生命周期是分四个阶段,从输入接入整合到加工到消费。客户不用关心数据如何接入进来,如何摆放如何整合,如何挖掘加工,他只需要从消费端拿到他想要的。

总之,之前很多大数据平台,主要是集中在技术包装的形态,基本上集中在存储管理,在人机交互和数据生命周期管理层面上,百分点在理论上明确了大数据操作系统的概念和定义,不仅解决了大数据的技术问题,不只是把各种各样的开源技术打包,更重要的是更注重企业在大数据方面的数据业务管理,整个企业内部的全方位资源的管理,还有企业的组织架构的管理。这三个特点支撑了这个产品是一个企业级的大数据操作系统,而不是简简单单的数据开发工具,企业用户使用BD-OS不仅仅可以解决技术问题,同时帮助企业级用户提高他们的管理质量、管理效率。

大数据操作系统怎么做

BD-OS产品按照可视化、智能化、系统化、协同化(SVIC)的理念设计,包括计算框架、资源管理、数据管理平台和桌面环境四个层面。

BD-OS内建了Labmda架构计算框架,精挑细选了一组开源组件并将它们有机整合在一起,使得BD-OS可以同时支持高速流式处理和海量批量处理,真正做到海量数据的实时分析挖掘和实时应用。同时,BD-OS RESTfull的数据接口保证企业业务系统能极其简单地与BD-OS集成。

图片描述

大数据技术平台逻辑架构

底层默认集成了社区版本的Storm、Spark和Hadoop三种计算框架,以及HDFS、Hbase、 MySQL、Redis、MongoDB和ElasticSearch数据存储服务,BD-OS支持将这些组件替换为某些发行版本。

刘国栋介绍了选择这些组件的理由,并表示BD-OS的流程和模型设计能够充分发挥这些开源组件的优点,让数据处理真正加速再加速,在实际应用中,不同的场景尽管支持不同的上层应用,但并不需要BD-OS做很多的改动。

图片描述

BD-OS Lambda架构的数据处理框架

在资源管理层,BD-OS则通过统一的资源管理机制,为企业提供了大数据的云存储和云计算资源。

数据管理层,BD-OS涵盖了采集、清洗、整合、分析挖掘和应用五个方面,支持标准的数据仓库建模流程,以及多种机器学习算法和商业模型。

图片描述

BD-OS产品架构

图片描述

BD-OS支持的商业模型

BD-OS基于B/S架构,完全可视化操作,支持PC端和移动端。根据刘国栋的演示,可以用所见即所得的方式,实现任意一种的异构系统的协同工作。例如某个场景,需要有几百个Oracle、MySQL,又有七八个Hadoop、Spark集群,这堆东西才能完成一件事儿,要把这些东西拼凑到一起,让他们按照一定的结构一定的规则去一起工作。上面构建起来的数据,要贯穿对于不同的Oracle集群、Spark集群或者Hadoop集群。在这些技术上面写一些逻辑比较简单,但要真正地把它们串起来,能够协调一致地运作才能解决问题的时候,BD-OS很轻松画张图就可以。但是如果没有BD-OS,就需要花很大的精力写很多程序。

百分点认为,对于数据建模、数据分析人员来说,他们需要利用一些数据分析的工具,但是他们没有心思或者时间、精力去搭载多元异构的数据操作的一些组件,BD-OS的这个特点,可以吸引的这些人。

谁在用BD-OS

BD-OS在2015年9月上旬发布,10月开始正式进行商业化。现在在金融、制造等领域已经有两位数的客户,如OPPO、LCL、长虹、速8酒店等。

一个最近的案例,就是在华夏银行里面百分点做的整体的解决方案就是从底层的BD-OS的构建,中间的用户标签一直到上层推荐或者营销或者分析类的应用,很多时候都是给客户做这套,在银行里面主打就是BD-OS加上标签再加上推荐。

广电总局无线电管理局的案例是一个纯的物联网应用。任何一个电视和广播信号发射场,最核心事情就是保证设备能够稳定、安全地去播放信号。此前广电总局无线电局的监控系统,大概五分钟采集一些数据上来,看看设备是否工作正常。上了BD-OS之后,采集频率提高到每秒钟采集一次,因为设备有30多个数值回来,能够做到更加实时的监控。更重要的是,基于BD-OS构建预测模型,还可以根据历史数据实时预测可能出现故障的设备,让停机检修、更换设备由被动变为主动(设备的故障检测和健康管理,PHM)。预测准确率与时间精度有关,5分钟内出现故障的预测的准确率大概为90%,72小时内出现故障的准确率是97%。

BD-OS也和很多合作伙伴进行了深度的绑定,包括微软的Azure平台,已经和BD-OS进行了深度集成,Azure在亚太整个销售体系会售卖百分点的BD-OS,微软还专门发一些文章介绍BD-OS。

BD-OS未来展望

百分点希望未来通过BD-OS这种标准化的产品体系和信用体系,能够更好地让有价值的数据输出它的价值。例如,企业的用户常用的大数据技术20到30个,可以通过BD-OS监控中心、配置中心,很轻松地管理和配置资源推动大数据应用落地。

评论