返回 登录
0

百度开放云首席架构师徐串:企业IT基础架构在云端如何变革

【CSDN现场报道】5月13日-15日,由全球最大中文IT社区CSDN主办的“2016中国云计算技术大会”(Cloud Computing Technology Conference 2016,简称CCTC 2016)在北京新云南皇冠假日酒店隆重举行。本次大会以“技术与应用、趋势与实践”为主题,聚焦最纯粹的技术干货分享,和最接地气的深度行业案例实践,汇聚国内外顶尖技术专家,共论最新的云计算技术实践与发展趋势。

百度开放云首席架构师徐串带来《企业IT基础架构在云端如何变革》的主题分享。主要以企业IT基础架构变革、百度开放简介、企业在百度开放云成长之路、百度开放云上的大数据与人工智能和百度开放云多媒体解决方案这五大主题展开演讲。在云计算时代,可按需付费、更强的可扩展性、灵活伸缩和丰富功能组件这些都IT变得更加简单。
图片描述

百度开放云首席架构师 徐串

以下为演讲实录:

今天徐串跟大家分享主题是,企业的IT基础架构在云端是如何变革的。基本上分几部分来介绍,首先笼统的分析下这个时代企业IT面临的挑战,之后说一下百度开放云,企业在百度开放云提供的大数据人工智能支持,最后再说下现在互联网比较活的一些跟视频图片相关的多媒体,开放云也为此专门做了一些解决方案。

首先来看IT基础架构,徐串认为在互联网时代,企业面临了巨大的挑战,笼统的来说可以分两部分,一部分就是钱,另一部分是时间。对钱来说我们知道传统的IT基础架构,通常需要巨大的IT投入,包含几方面,首先在购买服务器的时候,基本会按照业务峰值流量预估你的东西。但是大家做互联网的很多伙伴,或做其他业务的伙伴都知道,一般的服务总会有它的峰值和峰谷这两者差异是巨大的。所以IT投入必须按照峰值来做这是最大的特点。

第二,技术和服务器,我们底下软件架构都在不断的演进,在每次购买新的东西之后,老的服务还能不能在新的上面充分资源利用。这一点是不大可能的,因为业务会专注在如何改进自己的业务部分,不会关心在基础架构上如何优化提高资源利用率造成资源浪费。所以这些资源浪费使得固定资产投入特别的大。

在互联网时代不像以前,业务的变化是越来越快,就要求基础架构能够迅速的迭代,来应对变化。同样对架构师提出来很大的挑战,对于基础架构,如果做底层应该比较了解,为了保证稳定性在每次的升级其实都是相当慢的。现在开源很多,大家都会拥抱很多开源技术,如何把开源技术用好,能不能构建这样的团队也是很大的挑战。所以这些挑战使得在互联网时代,企业做基础架构非常的难。

这个时代还有一些趋势,一个趋势是云计算的趋势。云计算的出现其实让IT变得更加简了,云计算其实是对IT固定资产是一种租用而不是购买的模式,也就意味着你可以根据你的需要来按需付费,在业务峰值的时候只用满足峰值的资源,一旦低谷的时候可以很快把资源回收,这个模式在某些行业表现特别明显。比如客户里边有些是移动的游戏客户,在他们高峰期很多人上线需要开很多服务器来应对流量。到了半夜的时候人已经很少了,这时会迅速的把资源回收,只保留最基本的基础服务,这点就是在传统的模式下基本上不可能实现,必须把所有能够支撑它的峰值流量的服务器全部买下来。

另外一点,云计算为服务提供了更强的可扩展性,你可以随着流量上涨,业务增长,使用稳健可扩展的架构。而你的团队不用花太多的心思在开发基础架构上。此外,云计算提供很丰富的功能主线,这里边包括云自己开发的一些,也包括开源的。通常跟客户聊的时候,他们经常说对这个东西运维保障很难把控,没有团队深入了解开源组件,使得它随着业务增长实现,希望他能够提供一些专业的运维团队来运维这些功能组件,云计算的出现就恰恰满足了客户的需求。

第二个趋势,如今处于大数据时代,大数据时代对企业带来了更多的变化,第一,有了大数据之后,可以对企业运作模式进行更细致的分析,从而做出更加准确的商业决策。有了大数据,可以更加个性化的去观察,去理解每个用户的行为,针对用户提供更加精准的服务。第二点,大数据为提供很多创新的商业模式,百度就是最典型的,在线广告这个东西,背后就完全依赖大数据的支撑。在传统时代,很多东西都依靠程序员去设计一些规则,通常在什么情况展示什么样的广告,这种广告收入其实是比较传统的,和传统媒体像央视打广告没什么区别。但是大数据使得现在广告精准投放变得可能,用户在百度搜索任何关健词的时候,能通过大数据得到分析,他可能对某些商业有什么样的需求从而投放精准的广告,然而这是第一点。第二点,因为大数据的发展,所有的企业都意识到这些数据对自身的价值。他也需要自己能够有这样大数据管理分析的能力,这是专业的。因此可以看到现在业界涌现了很多专门做大数据架构的公司,这个东西在以前是不存在的。第三点,可以畅想未来,因为数据有价值,所以数据本身的交易可能成为创新的商业模式。现在已经有这样的现象出现了,百度的广告就类似于数据的交换。这样的大数据架构,其实对IT基础架构提出了挑战。传统的IT基础架构,只需管好服务器和网络,但是在大数据时代却不行,不仅有这些东西,还有资源,怎么管理这些大数据,怎么样在上面做更好的分析。

第三个趋势,这个时代可能在未来是很长时间的一个潮流,今年的标志性事件,阿法狗第一次在围棋上战胜了人类顶尖选手,这是人工智能的标志性事件。为什么?因为业界都认为围棋的复杂度,其实远远超出了国际象棋,基本属于计算机运算能力不可达到的水平,人类为什么可以对付它,是因为人类有高级抽象思维,可以通过自己的经验总结来提升自己的行为,而现在阿法狗的表现,向大家证明,其实人工智能也一样可以具有这种能力,可以看到未来人工智能的发展机会是无限的。对产品上一些新的东西已经可见新的人机交互方式。大家以前跟电脑基本上通过键盘交互,但是现在更多的语音,图象等。在百度可以看到一种趋势,在新一代,90后用语音搜索已经超过了50%,所以这个东西如果没有人工智能技术的发展,搜索引擎很难理解语音到底对用户,对手机说的一段话到底代表什么意思,想找什么样的东西,这是新的人机交互方式。可以想象一下未来,人工智能可以直接和你对话来问你想要什么,这是现在百度提倡的有个产品的叫DOME(音)百度希望人工智能产品为用户提供贴身式的服务,以后你的手机可能就是你的管家,有任何需求直接向你手机提出,它会很好的替你服务。

第三,人工智能可以对各行各业带来革命性的变革,百度在上面就是无人车,因为百度认为人工智能,可能在未来5-10年内可以实现替代人类驾驶员来做汽车驾驶,这会对行业产生革命性颠覆。现在运输上还需不需要这么多司机如果人工智能可以替代,人工成本就会降低。在路上是否需要自己开车,可能以后马路上跑的前是无人驾驶汽车,这些事情不光是在驾驶行业体现,也可能渗透到其他各行各业。

人工智能其实在未来到底会怎么样?其实现在可以说应该是不可想象的。人工智能的发展,到底对企业IT基础架构产生什么样的挑战,计算从以前传统CPU服务器转向大量的GPU集群,百度也在探索一些新的方向,有可能为人工智能定制一些专门的软件,在这基础上人工智能算法,深度学习,定制芯片这件事情,人工智能可能成为IT基础架构很重要的一部分。

另外一点,在基础软件部分,可以看到百度也正在做关于学习算法的基础平台,在人工智能平台里边,很关键的在特征在学习框架设计,再工程上有很多通用的部分是可以平台化的,使得你的业务可以专注在人工智能要解决问题上,而不关心其他的价值体现,所以将来需要很多人工智能的专业基础平台。

回顾一下在互联网时代企业面临金钱时间两个挑战,在云计算、大数据和人工智能的三个趋势下,都对IT基础架构产生巨大的影响,百度认为自己在这方面上都有很多的技术积累,所以希望把这些东西都分享出来,让广大的企业也能享受到先进的基础架构,所以这就是百度开放云。

接下来首先从百度私有云架构开始介绍,百度私有云基本分成五层,最底下是IDC技术,你可以看到很多资源东西,包括资源征集,还有交换机使我们有更好的吞吐,有集装箱式数据中心,有自己的SSD等等,这些基础投入包括百度在基础设施上的领先地位。第二层传统说的Saas大规模集群管理,功能计算等等,还有Paas平台,BAE云安全等等都是百度的产品。还有地图导航,百度语音识别都是Saas的部分提供给大家,最上面是百度私有云业务,还有客户端、移动终端智能硬件等等这是百度私有云的架构。

开放云基本上就是把私有云的部分进行产品化,进行包装开放出来给大家,这里边是整个开放云的产品全景图,很多很复杂,云计算、大数据、人工智能,这些产品可以分成三类,一类就是把百度自己内部私有云服务做一下稍微的包装直接开放出来。第二类,有一些服务只适合百度内部使用,它的产品化或者依赖什么比较多,百度把它进行整合包装,把它提供成完整平台开放出来。第三类,为中国的合作伙伴分享百度最尖端的技术,在百度自己大数据人工智能当中,这些东西可能不是那么产品化,但是百度很多合作伙伴需要百度提供这样的能力,把它开放出来。

下面更深入的看一下,百度的构想中一个企业在百度开放云上是怎么成长的。徐串把企业分为三类,一类微型企业,这些企业可能只是未来自己在互联网展示宣传的事情,或者它的业务处在起步阶段,需要做验证,需要吸引最早的客户,这些企业IT投入相对比较小,需要一台服务器或者几台,对于这样的企业百度提供云虚拟主机。第二类是比较普遍的,是大量的中小型企业,一般需要上百台服务器,每年投入上百万,这种情况下我们提供整套云服务体架构。第三类大中型企业,这些企业有些传统企业,有些互联网大型企业,他们业务进入高速增长,或者成熟期,他们每年IT支出可能上千万或上亿,这些企业和徐串谈的时候通常表示,我不想通用的,你必须为我量身打造,所以在这个时候百度提供专属定制化的方案。

下面分别来看一下这些是怎么工作的,首先第一个云虚拟主机,这个是上一个时代的产物,基本在九十年代。21世纪初特别流行,那时候大量企业纷纷想上网,找人做网页做门户,这个东西到现在已经是过时的了,为什么还要用呢。因为百度的客户里边,很多百度广告业主他们还在大量的使用门户网站,我们很多代理商都在做这些事情,所以百度还是觉得有必要给他提供虚拟主机产品。特点基本就是基于最新的云技术,DCOS构建一个主机产品,有一个重要的特点和百度有一个很好的集成,对百度广告主来说他们遇到一个问题。他们的网站稳定性并没有那么高,一个是自己的服务器,可能会有故障,另外可能会受到攻击,在这种情况下百度承诺,凡是你的服务不可用的时候百度可以和推广系统联动把你这部分广告费用直接免除。另外一方面百度把特有的EPI开放给广告主,所以百度提供更好的服务,以及想跟百度生态联动的企业,为它提供特色的跟百度生态的结合。

还有一个这些企业不满足静态界面,有一些简单的逻辑在里边,常常出现在原型设计阶段,或者手机微信公众号,或者移动简单的访问做后性,这样的企业有明显的特点,技术比较单一,就是完全基于PH架构,或者整套方案做这个架构,这种情况下百度会推荐他们的一个引擎BAE平台,这个很早开放了,到现在功能特别丰富了,支持语言环境,在开发的时候提供一系列用到的组件。还为开发者提供特别贴心的功能,运维自动化,实际上在企业起步阶段你发现程序开发并不是最麻烦的事情,麻烦是上线之后怎么运维,运维包括很多东西,怎么部署升级,怎么做监控,怎么做故障恢复,怎么做负载均衡,怎么做日志收集,这些都需要专业的运维人才能做好。企业起步阶段很少有充分的人力把这些事情做扎实,百度为他提供很好的运维自动化功能,使得他无需关心这些事情,只要关注自己业务开发就可以了,这是百度提供的完整方案。百度一站式建站、虚拟主机、基础版和专业版,基础版百度提供共享式的方式。

到了最后,如果你的服务已经发展到足够复杂,你需要多站元混合,你需要很多的站不使用单一的,这样你就会使用百度的云服务器。云服务器属于所有基本功能,在上面可以自由控制网络,可以云存储,云磁盘保证数据的可靠性。在这里有一个特点,百度提供比较高性能的本地盘,对于客户对本地特别在意的时候,如果有需要的话可以考虑看一下。

第二负载均衡,对大企业来说都是必不可少的,百度所有服务器出现故障都需要负载均衡,百度的负载均衡产品基于百度成熟技术,百度所有的服务包括搜索、地图完全居于这套技术。在开放云上,如果你在内部服务之间使用这个不涉及外部容量,它是完全免费的。

第三个CDN网络,百度自己CDN网络支持网盘数据分发等,一个覆盖光,节点遍布全国,所有运营商都覆盖,针对中国复杂网络环境进行专门优化,并且提供安全功能,防攻击,防盗链等等。

总结一下,百度认为一个企业从小到大,微型企业、中小型企业,大型企业提供虚拟主机、云服务器等等,此外还提供云云计算产品。下面是大数据和人工智能,大数据在百度,数据量很大,总计近千PB。随着业务发展,在最初的时候一天出现结果,但是用户要求把实时数据投放在网上,用户的反馈,对东西的喜好都需要反馈到现实,这对实时处理能力提出很高的要求。第三点多样性,百度数据特别大,最大数据是百度用户日志,用户行为分析,都是预先规定好的。最后是UDC,在贴吧里边发帖子,在百度上回答的问题,这些都是非结构化的,这也是百度强调的三点。

百度大数据平台有高效的数据传输平台,能够把百度散落在所有方位的东西攒起来,然后再部署海量的数据储存,海量数据处理技术进行处理,最后有一个庞大的数据仓库管理基本分三类,一类用户数据仓库,一类客户数据仓库,最后是企业数据仓库,这是所有百度运营的东西,以及系统产生的运行数据。

百度分三个分布计算平台,一类高吞吐离弦计算平台,百度前几年参加全球的一个比赛,在上面拿到了全球第一。第二,大规模机器学习平台,这是人工智能基础,百度样本特征达千亿,支持30+机器学习钻法。最后是实时流式计算平台,延迟毫秒,吞吐10GB。百度用的最广是分布式文件,现在基本上随着百度业务发展,可以做到单集群文件数一百亿,我们存储技术的要求,提供一些透明压缩,能够节省空间50%。第二分布式表格系统,提供了海量存储,高吞吐,实时读写。最后分布式对象存储系统,百度网盘大家都在用,它的编码系统,专属硬件技术,就是成本降低三分之二。百度做了慎重的考虑,在运用中发现很多时候对象存储以及文件这两种东西在硬件上是重复的,在网络上有很多的客户,更多的不希望文件的复杂结构,只是做来分发的,把大量的图片小对象存在上面,并不需要你对文件夹做任何处理,所以这更适合互联网的应用,首先把存储性开放出来,他可以实现低成本海量存储。最大达到5TB,已经涵盖绝大多数的需求,稳定性很高,有很严格的认证机制,提供多语言STK,很方便的进去使用。

第二个是HadoopSpark,很多系统是私有云,在这里边完全由解决方案公司为你提供集群搭建,由他们来运维。你必须按照你企业需求峰值来使用资源,在百度上面不是这样的,你随时可以使用,想要多大的时候,业务繁忙的时候可以多用,业务空闲时候收回来。还有一点很重要,完全兼容开源,在和客户讨论以后,客户基本希望你完全开放兼容接口,为什么,他们自己人员知道了用开源软件,另外他利用开源接口,其实不会被云服务商锁定,用户业务长期依赖你,不会的,百度有自主权,所以做出决定拥抱开源。

第三,百度OLAP引擎,大数据提的比较多。OLAP基本用来做统计和分析的,百度发现分布式系统非常好,但是处理报表和灵活分析的时候遇到一个问题,实时响应速度太慢,所以需要专门的引擎专门做快速响应,OLAP引擎在里边可以做到毫秒,这在百度内部使用给出极大的好评,他们不再用用来的HadoopSpark技术,他们几个小时才能得到分析结果,但是在这个时候实时反馈。这个接口可以跟任何接口无缝对接,使他们用自己熟悉的工具完成工作,最后这个服务是高可用性,多副本存储等等。

在人工智能上,百度把学习平台BML产品开放给大家,它是一个全流程的,首先你会做数据预处理,变成一个模型。然后在整型数据下面把特征提取出来,最后用这种方法模型,进行评估这个模型效果怎么样,整个流程都在产品中用很完善的机器,使得开发人员很方便的在上面搭建自己的人工智能软件。

最后一点和百度自己的数据进行打通,你可以很容易获得百度用户特征,和你自己的数据进行结合,从而利用百度的大数据的特点,来更好的为你自己运维服务。

这是为客户做的完整大数据解决方案,他服务部署在百度云服务器上,还有一些客户端上传一些数据到BOS,利用百度的系统对BOS进行处理,一部分导入自己的引擎里边做自己的订单管理,订单分析,以及业务日常运营分析。另外一方面会把这些数据输入到BML平台,进行预测,我们为客户利用这些产品提供了完整的解决方案。

最后徐串简要的跟大家介绍一下多媒体解决方案,现在互联网上视频直播很火,百度有很多产品包括视频点播,视频直播,视频解码等等,看几个实际的例子,教师录一些视频传到网上让学生看,教师把视频传到BOS后台做加密,使得观看效果更好。学习这边到网站直接利用开发者SDK很方便的观看这些视频。第二视频直播方案,这时候不利用存储系统,通过推流到百度服务器,之后把这些视频分发到直播间,保证得到最完美的效果,百度提供推流到处理,到观看整套解决方案。目前百度很多客户都在使用直播解决方案,大家有兴趣也欢迎使用。

综上来说百度开放云的远景把百度的先进基础架构带给大家,使的大家从中获益,从而快速发展,徐串希望之后大家能够跟百度云有一些合作。

更多精彩内容,请关注直播专题2016中国云计算技术大会(CCTC),新浪微博@CSDN云计算,订阅CSDN云计算官方微信公众号。

评论