返回 登录
0

百度开放云张琪:开源大数据系统运维不会永远是核心竞争力

2016中国云计算技术大会(CCTC 2016,专题报道)上,百度高级产品经理、百度开放云大数据平台产品负责人张琪做了题为《大数据时代的数据仓储实现技术实战》的分享,并接受CSDN记者专访,深入介绍百度在大数据平台技术和产品化方面的实践经验,包括在人工智能以及物联网(IoT)相关的一些努力。

张琪认为,大数据的利用重要的是产生洞察力,而不是系统运维能力。百度开放云是百度技术输出的窗口,对企业而言大大降低了运维的投入,其上的大数据平台提供各种大数据工具以灵活地应对结构化与非结构化数据处理的需求,并基于这些工具也搭建了一些大数据应用,包括人工智能、物联网的服务。未来,百度开放云会将托管集群服务PaaS化,并基于IDL的研究、百度的数据和训练提供更多的人工智能API。

图片描述

百度高级产品经理、百度开放云大数据平台产品负责人张琪

百度大数据:从踩坑到服务

CSDN:请简单介绍下您和目前的工作,以及关注的技术领域。

张琪:百度是一家技术公司,希望通过百度开放云这个窗口把百度把技术输出。我现在负责大数据的产品,包括托管Hadoop服务BMR、数据仓库服务Palo和托管机器学习服务BML等;基于这些工具,我们还搭建了一些解决方案,用于数字营销等各种业务场景。

CSDN:这些工具和产品的研发打磨,您认为最大的挑战是什么?

张琪:百度开放云只是做云端的服务,中国的整个企业和开发者,对于上云是有一些顾虑的,会由于不熟悉而产生一些想法,包括安全等。其实从整个产业往前看,云端是不可逆转的趋势,接受托管服务可以避免运维。按需购买,很快就能够获得一个集群,不像在企业内部,从批预算、采购、搭建、部署,整个流程非常长,所以企业和开发者应该更多地拥抱云端,更早地占据优势,在商业上占据先机。

另一方面,企业对开源技术感兴趣,这是一个非常好的举动,但到底是花费精力在运维上,还是通过这些技术来获得企业的洞察力,找到一些别人没有的知识?我认为后者才是核心,运维大数据平台并不是核心竞争力——若干年前帮别人安装一个Windows操作系统就能赚很多钱,放到现在就是笑话——大数据目前正处于这样的时代,运维或者说踩一些坑看来是一个很高级的事情,这其实只是一个过程,最终还是要通过这些工具,把数据分析出别人所不知道的洞察力,这才是真正的核心价值。这也是需要(和用户)沟通的。

CSDN:到目前为止,百度开放云踩过的哪些坑让您印象最为深刻?

张琪:百度开放云的整个策略,要么我们提供开源产品的运维,如Elasticsearch、Hadoop等;要么是自研一些产品,同时提供一些开源兼容的接口,如Palo兼容MySQL。前者的坑会更多,开源产品的好处,是从代码的层面来说是免费的,没有成本,但真正使用的时候会有这样那样的坑。百度虽然不是那些开源技术的发明者,但是是最早的实践者,在实践上做了很多,根据业务的需要踩过各种各样的坑,把这些坑填补之后,我们才放到开放云上提供托管服务。可以说百度踩过的坑不计其数。不说血泪史,我们希望跟用户说的是,自己不要去踩,跟我们一起合作共同成长,我们会把坑踩了,把成熟的服务再分享给大家。

CSDN:把支撑百度内部业务的技术和产品拿出来,做成能够开放的托管服务,还需要做一些附加的开发工作吗?

张琪:那是肯定的。百度开放云背后的技术,也是百度自己使用的技术,但是由于百度有很多水平很高的工程师做运维一些小工具或者说有一些代码自己开发就可以满足运维需求了。但是在云端使用的产品是完全不一样的,比如说从一个系统产生的数据,怎么灌到另外一个系统中去,这其中需要注意什么,这些就是百度在提供产品之外要提供的解决方案,把这些东西配套使用。打一个比方,产品就像是乐高积木,但积木怎么有机组合,真正地解决客户业务场景中的问题,这是百度想要做的。

数据仓储就是一个很典型的例子。有的用户说我可以拿Hadoop做,有的用户说用传统关系型数据库就能解决,但是两者在技术上其实各有优略,应该怎么选型,能否结合起来使用,上面怎么用BI工具来做可视化的交互式查询,这些坑,或者说这些结合,是百度很核心的商务能力。对于客户来说,希望他们能够真正地专注于自己的业务,而不是说要到处去踩坑、选型,那不是他们核心的能力。真正能快速地解决企业的商务目的,这是百度开放云技术内部使用和外部使用最大的不同,我们做的是2B的业务。

数据仓储:未来PaaS化

CSDN:传统的数据仓储提供商有更多2B的经验,也在做云化,也和开源结合。采用传统技术的升级版,和采用百度开放云的数据仓储技术,有多大的差别?

张琪:我是这样理解的,传统的数据仓库非常成熟,是没有问题的,但是百度是一个互联网公司,我们做同样的技术,但是是不同的实现。

  1. 首先我们的关系型数据库是基于MPP的,但是下面没有定制的机器,用的是面向云端的商品化的硬件,就像Hadoop不一样,下面是普通的x86机器,甚至我们可以用虚机来搭建这个系统,所以成本是传统技术的1/10,甚至更低。

  2. 在云端我们强调的是托管服务,传统采购集群硬件、采购软件许可,要扩容的时候,整个流程会非常长,但是在云端,一个滚动条往右边/左边一滚,集群就可以扩容/缩容了,甚至业务不需要数据仓储的时候可以把它给关掉,只支付使用部分的费用就可以了。

所以从整个的性价、敏捷性来说,云端的优势是更大的。

CSDN:百度开放云的数据仓储还关注哪些特性?

张琪:以下几点是我们在设计这个产品的时候看得比较重的。

  1. MPP架构已经比较成熟,在云端我们还是结合托管服务,整个运维都在百度开放云上,不需要企业操心,不像企业内部使用Teradata或者类似的产品,需要专门的人来运维,做24×7×365的运维保证系统不间断。

  2. 接口的兼容也是百度非常看重的一点。百度数据仓储也是提供了MySQL的兼容,用MySQL Workbench直接就连上去,和连接MySQL是一样的,所有的输入查询,结果就立刻出来。

  3. 和Hadoop集群的交互,我们觉得也是一个优势。有些传统企业的做法,是通过一个一体机,可以用Hadoop,也可以用MPP,可以做交互,甚至可以做SQL的联邦式查询(Federated Query),但我们在云端就比较的灵活,这边是一个托管Hadoop集群做处理,那边是一个托管的Palo,它们通过存储来交互,这样就把两者的优势结合。

CSDN:还有一个比较重要的方面就是数据建模,百度开放云有什么经验可以分享?

张琪:这个还是结合具体的场景。

  1. 传统的企业数据,如ERP和eHR里面的数据,都是很结构化的,这样的数据,建模的时候,还是按照传统数据仓库的星型模型建模,这样的模型可以几乎1:1打到Palo里面直接使用,报表工具或者BI工具,不用修改任何代码就可以进行分析,但是速度会提高非常高的倍数。

  2. 弱结构化的数据,如日志、视频、舆情等方面的数据,更适合用Hadoop来处理,这个时候Hadoop的建模就不要多表,Hadoop上大多数的OLAP系统做JOIN其实不是擅长的。这样的数据结构,索性做成一张大表(有一点冗余也没问题,HDFS很便宜),然后分区来进行查询,效果会比较好。

传统的数据用结构化的Palo,而新型的非结构化或弱结构化数据用Hadoop技术,在做结构化的处理之后,如果对查询的速度要求更高,导入到Palo里面也是可以的。

CSDN:百度开放云数据仓储未来重点关注哪些技术?

张琪:我们今天很多的服务都叫做托管集群,如Hadoop集群、Palo数据仓库集群,仍然可以看到集群的概念。百度会慢慢地是把很多技术要PaaS化,比如说在自己的Spark SQL集群上做一个复杂的查询,首先需要先把计算能力扩容之后才能够计算,我们有一个产品叫做BigSQL,你只要把数据放在存储上,直接输入query,就有可能用尽量多的资源进行快速计算,然后把结果给到你,我们把开源的产品PaaS化,之后不是按照集群来计费,而是按照使用来计算成本,这样对于客户来说成本就会低很多。

人工智能:基于业务痛点研发

CSDN:人工智能方面,百度开放云有哪些比较成熟的应用?

张琪:人工智能是百度非常大的特点。我们结合自己的优势,提供工具层次的和服务级别的产品。

  1. BML是一个分布式机器学习运行框架,或者说托管服务,提供了很多的机器学习模型,包括深度神经网络算法在里面。

  2. 百度有吴恩达的实验室,我们很多时候把底下的算法,和用来训练的原始数据,进行建模之后,把模型进行输出。目前百度开放云上有图像识别、语音识别等,将来会开放人脸识别、文字识别,可以做一些主题的萃取,把后面的人工智能服务和底层的数据训练好之后,做成为一个托管服务,或者说以分析即服务的形态发布出来。

所以我觉得我们是比较灵活的,如果你需要下面运行的模型,你自己有数据,你自己去训练。另外有一些非常常用的场景我们都训练好了,比如说要识别一个驾照,用百度OCR的服务,就可以出结果。

CSDN:目前有没有一些实际的应用案例?

张琪:这是非常多的。

  • 比如前一段时间,一家餐饮店用了百度的度秘——度秘是百度推出的为用户提供秘书化搜索服务的机器人助理,它能够基于百度的搜索及智能交互技术,借助机器不断学习和替代人的行为——有了度秘之后,餐饮店的客户可以通过自然语言直接下单、支付,然后到前台拿了东西就可以走了。而以前都要跑到柜台去点单,支付和找零都很麻烦。

  • 再说一个具体业务上的实现,我们和一家保险公司合作,通过基于深度学习的机器视觉技术,帮助这家公司从用户驾照很快地检索到上面的重要信息,不用人工输入,节省了大量的人力。

  • 再说一个比较远的,就是无人车,其中整合了视觉分析、听觉分析等很多人工智能方面的东西。百度在无人车方面已经做了很多探索。

CSDN:未来还有什么样的规划?

张琪:我想还是结合我们在深度神经网络方面的优势,逐步把我们内部的一些能力开放出来。借助吴恩达一句著名的话,就好比造火箭要有原料有引擎,大数据是下面的原料,而云计算是引擎,两者结合之后,才能够使整个人工智能有更多的发展。因为深度学习和原来的算法不一样的地方是在于,(模型性能)不会随着数据量的增长而衰减,几乎还是呈线性关系的,所以我们会利用百度本身的大量数据,包括图片、文字,形成更精准的API发布出来,帮助我们的客户更方便地拥抱大数据和利用人工智能,在业务上做得更先进。

CSDN:来自吴恩达团队的技术研究成果,和百度开放云上成功的商业化产品之间,有什么样的鸿沟需要跨越吗?百度如何跨越?

张琪:一个好的技术需要产业化帮助到客户,最核心的一点是对客户和市场的理解,如果脱离客户的需求去做一些高大上的研究,意义不是很大。对百度来说,要弥补这个鸿沟,一个很好的方法就是和市场、客户进行更多的交流,基于一个具体的场景来解决业务的需求和痛点,这是百度把人工智能技术产品化最好的方法。

物联网:数据化的关键

CSDN:百度展台也展示了IoT托管服务,大数据平台为什么需要IoT的能力?

张琪:因为我们看到整个物联网正在蓬勃发展。除了各种智能家居产品,其实物联网在工业、农业上发展得非常快。例如,之前很多农村扶贫措施可能就是直接钱,现在一些企业的做法是,我把一些小鸡苗给你来养,并让我的消费者在很远的地方就可以看到这个视频,甚至可以随时了解鸡的大小、重量、温度、通风情况,形成很好的绿色食品提供给消费者,同时农民也不是钱用完了就没了,而是获得了一个高附加值的能力,而把这个流程打通的一个关键就是物联网技术。

基于物联网,我可以通过的远程的感知器,设置通风的情况,可以设置小鸡在喝水时自动称体重,能够把这一切数据化,一方面可以远程做监控,更重要的是通过数据分析能够知道怎么进行更好的饲养。(养殖)数据化是我们非常欠缺的,而物联网能够帮助实现这一点。通过对感知器、传感器产生和收集的大量数据进行分析,农民和饲料企业能够从中找到洞察力。

百度非常看好这一点,所以推出了一个基于MQTT的原生IoT服务,能够享受MQTT的很多特性,包括Pub-Sub等。业界的另外一种做法,是有一个类似于消息系统挂到一个转接服务,看上去是MQTT,但是不是原生的,则无法实现这些。

总结

张琪介绍了百度的大数据技术视野,包括百度在IaaS、PaaS和SaaS层的一些努力和未来规划,以及百度选择各种技术路线的思路:解放企业和开发人员,真正地解决企业业务场景中的问题。百度开放云提供的大数据服务,希望让企业和开发人员脱离后端运维工作,更快速地实现大数据应用,从大数据中获得商业洞察。当然,开发人员也要了解各种新技术,以便对云服务做出最合适的评估和选择。而对于新技术的学习,张琪推荐了采用阅读最新论文的方式——每周至少看两篇论文。

评论