返回 登录
7

【BDTC2016】D-uni Founder&CEO查理:数据敏捷性,数据时代的云架构

阅读2428

【CSDN现场报道】2016年12月8-10日,由中国计算机学会(CCF)主办,CCF大数据专家委员会承办,中国科学院计算技术研究所、中科天玑数据科技股份有限公司与CSDN共同协办,以“聚焦行业最佳实践,数据与应用的深度融合”为主题的2016中国大数据技术大会在北京新云南皇冠假日酒店隆重举办。

2016中国大数据技术大会首日全体会议中,今天主会环节最后一位演讲嘉宾来自D-Uni Founder&CEO查理,他带来的分享主题为《数据敏捷性 数据时代的云架构》。

图片描述

D-uni Founder&CEO 查理

以下演讲实录:

我和前面几位讲的不一样,因为我是从企业来的,老的EDS和IDM的架构师出身的,不太有网络公司的背景,所以可能稍微有点不太一样。这是在典型传统企业IT里比较典型的矛盾,因数据的增长一年大概平均增长率40%,即使你对这个数据的管理进行优化,而且存储成本不断下降仍然跟不上数据成长带来了压力,这是普遍在全球的一个趋势,在国内也是一模一样对CIO来说比较大的问题。

同时本身已经在IT的预算压力很大的条件下,这里有一个很有趣的矛盾,一方面数据本身的价值来说它是在发生过的几个小时内价值最高的,随着时间的推移数据的价值是越来越低的。同时我们现有的这种批处理的模型,是对所有的数据不分时间价值来进行一个完整处理,这样一来,大家可以看到实际上一个IT系统,它的成本发生的中心和你实际数据的价值中心是不重叠的,从一个经济学的角度,本身就是一种浪费。

那么这样的话,因为这种落后的批处理的模型,就会带来一系列的模型,我这里只是举了几个实际用户的一些问题。这是一个保险公司,这个保险公司在国内成长相当快的,因为没有得到他的许可,我不好用他的名字。他们就是要做大数据分析,他们用的平台是阿里云的Hadoop,可它的数据是在各个业务系统,他要去做这个刷新的话,就只能用复制的技术来刷新,这个本身的成本是相当高的,同时这个过程中不能保证数据的一致性。如果各位做过大型的仓库,数据一致性是一个相当普遍的问题,我自己在IBM的朋友也好,还是后面公司的朋友也好,这是一个比较普遍的问题。

这是我们第一个用户,在美国纳斯达克上市的一个半导体公司,光是从生产环境往测试开发、运维环境复制这个数据就需要9个小时,这家公司是一个全球公司,不能说马上网上就能复制,因为它在上海、东京、台北都有这个数据,得早上2点才能复制,也就是11点才结束,也就是硅谷这些工作人员早上到11的工作都受到很大的影响。华为的应用开发是每个月一个小版本,每三个月一个大版本,他做测试的话,你要搭这个数据库就10天的时间,光拷贝数据就3天,当然这个数据库也是比较大的,一个数据库就30TB,这都是因为现有的体系架构,这种处理模型本身有了问题。

现在这种传统的云架构,它本身架构的产生主要由网络公司来推动的,对于网络公司来说,他们没有大量的数据库,即使有,他的每一个数据库的体量也都比较小,通常也就是几个G,虽然总量也可能很大,但每个数据库也是比较小的。所以对他们来说这个数据管理是没有什么压力,而对传统企业来说这个数据库通常都比较大,1〜2个T是最基本的,大一点几十个T,华为更夸张直接30个B。这种情况下如果没有数据管理层的话,就会带来一系列的问题。所以我们公司就提出了数据敏捷层的概念,基础层和应用层之间应该有一个数据层,这个观点从我去年回国以来和中国很多的保险公司,银行、电信、电力公司、能源公司,大型的制造企业都做过比较多的沟通,基本上大家或多或少都有这样的想法,有的已经很明确,有的还在刚开始走,有的还在考虑,但基本上得到整个行业的一个认可。

现在我们的这个系统也确确实实在很多的生态环境里得到了验证,这是我们一些实际的效果,你看原来用复制技术去发布大数据的话,它的成本这么多,我们成本这么多。我曾经计算过这个投资回报率,600%,这样的结果是非常惊人的,我能保证数据的一致性,这样在所有的大数据下和大型数据仓库下是一个普遍的问题,基本我在中国大的保险公司,银行和这些大的制造商,运营商,都普遍的他们有类似的问题,目前已经进行试运行了。

我们第一个客户已经整整运行了一年,他们原来9个小时去复制的数据,现在15分钟就复制完了。同时你可以看到我们去配置一个T的数据库,配置出来是15秒,也就是说我配置一个数据库的速度远远超过你去启动一个容器的时间。华为也是一样,他去配置一个数据库,人工要10天的时间,我只要5分钟,这是一个30TB的数据库,也就是我启动一个数据库比你启动一个虚机还要快,这就是我所说的敏捷化,数据变得很轻量很敏捷,和你用一个虚机是一样轻松的,这种情况下你去使用数据库就没有必要说一开始我就先占用了很多的硬件、软件,就等着有人来用,而是说可以按需使用,就根本改变了数据库生命周期的管理。

这里是我在2008年在硅谷全球第一个提出数据库虚拟化,就是这个概念,只不过当时的技术水平没有达到这样的性能水平,这是一个全新的性能水平。其实它的核心技术没有那么难,这是2001年在北京搞出来的东西,我第一次创业是在北京,当时我找出了数据库它的增量部分,我是2002年把这个产品化的。在把这个增长拿到以后,我们对它进行一个智能化的合成,智能化合成以后就是每天,你从使用者的角度来说,是完整的数据库,可真正我做的处理是一个增量级的处理。当你是一个增量级处理的话,你处理的成本是大幅下降的。也就是说对我们来说最核心的技术是什么,就是我只处理最新的数据,这其实是我们公司最核心的一个逻辑,也是我们的一个哲学。

也就是说实际上我们推的主要是一个Lambda的系统架构,既然我能找到改变量,我的改变量就直接通过流处理来处理,因为我处理的实际数据量大幅度的压缩,而且是延迟大幅度压缩,当然我可以落地到Hadoop来,但对于这种大压力高,要求实验很短,实时性的要求,大数据量的情况下,我们更推荐是这样一个架构。大家可以看到这些白色的盒子,都是我们公司自有技术实现的,其他的技术才是开源技术。

因为我们现在把处理的时间主要放在高价值的数据上,所以经过Lambda架构以后,我们处理的成本和数据的价值中心就相对比较重叠,所以通过这样一种方式来得到一个成本的节省,就是把你的钱用在刀口上。这就是刚才那张图,但这个更强调由于我们能更快的把这个数据准备好,并且把这个信息发布完,所以作为一个企业可以缩短他从一个业务事件的发生,到采取行动中间的周期,当你把这个周期缩短了以后,你就可以减少这个反应周期,同时获取一些商业价值,这个就是我们给客户提供的价值。

这张图是对数据的实际价值比较经典的一张图,2016年在CIO关心的十大议题里,我们能解决其中九大议题,唯一我们不能解决的是把你的IT和你的业务对齐,这个最主要是企业文化的问题,我们只解决技术,所以不能解决你的文化问题。但无论你的市场的响应周期,你的创新还是有效性、及时性、灵活性,各种成本控制,我们这样一个架构都能比较有效的去支撑它。

从一个产品来说,我们这两个核心的服务都已经做完了,一个是数据库的技术在2015年3月份已经完成,开放的数据总线在6月份已经完成。我们现在最主要要完成的是流处理平台的技术,这个技术做完以后,我们Lambda架构作为一个产品就完成了。再往后就要实现实时数据应用的平台,其中包括可视化应用的架构。

我们作为一个团队在过去的15年,一直都在做一件事,就是数据管理,从2001年开始在北京创立第一个公司,当时我们是全球第一个实现数据库快捷增量备份的公司,领先甲骨文6年。我在2004年底回到了美国,当时回去以后就花旗银行,在一些大的公司继续工作,做它的数据标准这些东西,包括做一些大数据的分析,包括美国福克斯公司的一些销售预测平台。2008年决定再次创业,就在硅谷创立了D公司,去年估值9.81亿,就是一个独角兽的公司,在这个公司我2008年首次提出了数据库虚拟化的概念,定义了一个新的产品品类,这个市场里的产品基本上不是我自己领导的公司开发的,就是偷我的概念的。

再后来去了VMware公司,又做了一次数据库的虚拟化产品和大数据的虚拟化,再到现在这个公司,我们继续在做数据敏捷化,实际上它的技术核心还是数据库虚拟化。从2008年到2012年,再到2014年,每次做事情我们这个团队都定义了全新的产品品类,全新的市场,这次我希望在中国能取得非常大的成功。


更多大会精彩内容,请关注CSDN“2016中国大数据技术大会” 专题报道;微博@CSDN云计算,微信搜索“CSDN大数据”订阅号获取大会精彩资讯。

评论