返回 登录
0

大数据分析与生态系统论坛:金融、电网、容器、数据库、图计算等共谱大数据生态

【CSDN现场报道】12月7日-9日,由全球最大中文IT社区CSDN承办的“2017中国大数据技术大会”(BigData Technology Conference 2017,简称BDTC 2017)在北京新云南皇冠假日酒店隆重举行。本次大会以“大数据与智能为主题,聚焦最纯粹的技术干货分享,和最接地气的深度行业案例实践,汇聚国内外顶尖技术专家,共论最新的大数据技术实践与发展趋势。

相关资料:直播专题会刊PPT下载等。


本文将一探热门专题论坛——大数据分析与生态系统论坛的精彩,一窥其中的精彩观点。

本论坛在清华大学计算机系教授、中国机算机学会杰出会员和杰出讲者、副秘书长、青年科技论坛荣誉委员陈文光的主持下火热开启,他介绍了一天的论坛分享拥有着国家电网、平安银行等银行公司,也还有阿里腾讯这样的互联网公司,以及数据分析系统的知名企业,希望展现出大数据生态系统中各个层面的需求和数据,以及全方位的系统和应用。

图片描述

中国民生银行总行信息科技部总经理牛新庄带来了题为《大数据在金融行业的应用》的分享,分享了银行业通过科技创新和数据驱动进行转型升级的经验,介绍金融行业的大数据智能应用场景,探讨了金融科技的发展方向。他认为未来的银行一定是以互联网为平台、云端大数据为动力、智能化为方向,并往科技公司方向发展,从而实现传统银行的转型,以及预计十年之内民生银行一定会成为科技金融公司。同时,他认为在与阿里和腾讯等相比时,银行的巨大优势就是同样1GB的数据,银行的数据更为真实,含金量的价值高于其他千倍甚至万倍。

图片描述

第二位分享者来自平安科技首席科学家兼智能引擎部总经理肖京,他认为平安已经从起初的保险公司发展到了现如今的一个综合金融集团,并经历了三个阶段:自营→建立开放市场→建立开放平台(对外输出业务和技术能力);而未来的发力方向是建立一个国际领先的金融服务提供商,并利用底层的技术平台实力来驱动——ABCD:人工智能、区块链、云计算、大数据。其中人工智能的应用非常丰富,他举人脸识别以及图像识别等在车险理赔、放贷等诸多领域的深度应用,并取得了显著的效果。

图片描述

全球能源互联网研究院计算及应用研究所所长高昆仑带来题为《电网大数据技术应用》的分享,主要分享了电网企业大数据概况、大数据平台,数据质量治理及脱敏、自助分析等工具,及电网生产运行领域典型大数据应用。他认为电网会变成一个综合的能源互联网,这也是响应习主席去年提出全球互联网概念。

比如说把新疆风电集中开发出来用到华东,这是一种能源互联网的体现。在这个趋势下,应对好大数据时代挑战电网也做了一些技术性的工作,比如国家电网公司建设了自己的大数据平台,以支撑所有信息管理系统、管理服务系统等。

最后高昆仑所长也分享了国家电网对外的一些工作,将数据开放出来给政府或者企业,用以社会保障和民生服务,比如人口迁移、社会治安等。而基于用户行为和人民银行合作信用风控→一些拖欠电费用户信用好的话就多拖一段时间,如果不好就直接断电。

上午第四位嘉宾来自新华三集团大数据产品线副总工林海,带来了题为《新华三大数据DataEngine及技术实现》的分享,介绍了新华三大数据DataEngine体系,及应用开发引擎、数据建模引擎技术实现。新华三的大数据处理流程里有8个引擎,这些把整个大数据从数据源到数据计算、数据存储、应用开发、数据展现,直至最后提供给商业应用接口,从而形成了一个完整的生态。

联动优势副总裁赵晓庆带来了题为《从数据分析到大数据商业建模平台的演进之路》的主题分享,重点介绍联动优势大数据商业建模平台的发展路径,过程中碰到的挑战以及演进思路。并展望在人工智能快速发展的大背景下,大数据商业建模与人工智能的结合将为数据分析界带来的挑战与机会。

最后他还强调了数据做分析的重要性,他认为整个在数据分析链条上来讲,50%的工作量以及50%的问题其实都在数据这一端产生的,剩下的50%可能才是计算、算法、平台这方面的一些能力。同时,他也结合个人经验,建议做数据开始第一步还是从内部应用做起,比如交易做数据的话,无论是思维模式还是技术能力,包括团队上都有一个变化,数据你看别人做的很火热,但是自己的企业和团队能不能做明白,这个思维是需要逐步培养过程。从内部的应用、从培养整个企业数据团队以及数据的思维有助于更好理解我们的数据,大格局是从内向外。

图片描述

下午第一场分享嘉宾是阿里巴巴计算平台事业部高级技术专家徐冬,所做的分享题目是《复杂数据分布的查询优化》,从数据分布的历史和原理开始,介绍我们的思路和解决办法。

他认为数据分布的问题在大数据处理领域由来已久。很不幸,如今流行的大数据处理系统仍然没有很好地解决这个问题。在MaxCompute 2.0全新的优化器中,阿里引入了复杂数据分布,添加了分区剪枝、分布上拉、下推以及分布对齐等优化措施。我们在最新的版本里面已经发布包括HASH和一部分RANGE相关的优化,大家可以在公有云版本很快可以享受到。

图片描述

腾讯数据平台部资源调度和容器云负责人罗韩梅带来了题为《腾讯Docker云平台GaiaStack》的主题演讲,分享内容主要为三个部分,首先是部分项目背景,然后是架构和特性,最后讲一下GaiaStack对底层能力的拓展。

大数据意味着需要调度大量的资源,这需要底层强大的云平台支持。GaiaStack作为数据中心操作系统,可以调度CPU或GPU等海量计算资源,运行所有计算框架,监控任务执行结果,让数据中心的所有资源被合理使用,协同完成各类应用场景的计算。 GaiaStack了整合docker、存储、网络等底层技术,结合灵活的调度器、高度容灾机制、兼容性编排、P2P的高效分发策略、全面的多级监控、自动化部署及运营系统等,让GaiaStack不但是大数据的云、也是微服务的云、有状态服务的云、开发云、云的云,让所有应用都能用到GaiaStack所带来的降低成本、简化开发模式、业务动态伸缩、自动的容灾容错等好处。

最后她也谈了GaiaStack的开放性,现在把GaiaStack已经放到了互联网+和腾讯云,尤其是在腾讯云的黑石,因为Docker已经是轻量化的了。

图片描述

南京天数研发副总裁倪岭的演讲主题是《SkyIntelligent – 工业大数据科学云平台实践》,在人工智能时代,工业企业如何在传统大数据平台的基础上搭建和完善企业级的数据分析和机器学习私有云服务,倪岭先生结合了案例分享了天数在这方面的实践和看法。

其中重点谈及了机器学习的部署,部署这一块有好几种方法,使用Tensorflow Serving 的 ModelServer和gRPC协议部署tensorflow模型,使用python的可视化库(matplotlib、bokeh、seaborn、plotly、 ipywidget…) 和python web应用框架(Django、Tornado、Flask…)快速部署可视化及动态视图和报表,通过web应用框架来转换和部署Restful API服务,所有部署使用可选择的docker镜像,端口映射和URL部署均通过mesos来协调和调度。

图片描述

柏睿数据董事长刘睿民的演讲题目是《数据库的标准化历程及前沿技术》,通过介绍数据库的演变历史,及数据库标准的变化历程来介绍数据库的技术变革。同时通过技术变革的周期来深入介绍前沿技术的探索。其中,到底有哪些前沿技术在制定过程当中,一个是多维数组的支持,第二个是流数据库,第三个是图数据库。

最后他总结道:30年以来数据库一直是在不断发展,而且近几年大量的应用促使SQL的数据库,应用发展导致SQL语言在数据库发展会非常的快,尤其是这几年。某种程度上SQL的生命力还是非常强悍的。最近的SQL标准刚才都提到了,行模式匹配,多态性表的支持,包括跟分析相关的功能,之后的一些基本就是流数据库、图数据库包括多维数组的支持。

图片描述

费马科技CEO洪春涛演讲的题目是《图计算:应用,难点,现状及展望》,主要针对目前技术难以解决的问题提出了技术路线,并就未来图计算的应用和图计算平台的发展进行讨论。

他给出了一些目前的挑战和问题,随着大数据时代的到来,图计算也越来越受关注。与传统的大数据不同的是,图数据是不规则的,因此图数据的存储查询和计算分析都比传统的大数据更加复杂。这就给图计算平台的设计和实现提出了挑战。现有的图计算平台要么容量不足以支撑大量数据,要么性能无法满足要求。

另外,他也指出:“图上面做计算其实是在现实当中应用是非常广泛的,大家可能最常用的就是路径搜索,你要导航,总要先通过某个算法给你算出来,你应该从哪拐到哪,从哪走到哪,这其实就是一个很经典的最短路径算法,你归结到最抽象的东西。你可以选择我对不同的路径给它一个不同的权重,我可以选择我时间优先,它就按照时间来给这些路径做加权,你得到就是最短时间的路径。你可以说我红绿灯最少优先就得到这样一个路径。”

图片描述

深圳旭东数字医学影像技术有限公司CEO顾清分享的题目为《医学影像大数据应用的思考》,他首先介绍目前做的事情主要是3D可视化数据以DICOM格式为基础,经过提炼转化为STL格式的数据矩阵——STL是用三角网格来表现3D模型。也指出,医学图像量化是个算法问题,医学图像的检索是一个编码问题,只有计算机能够检索的数据,才能够应用到大数据。而未来的应用:医生不仅能够在医院进行诊断,在其他地方也能够进行学习和诊断,医生可以在任何时间任何地点参与到这些事,分享他的经验。


更多精彩内容,请关注直播专题2017中国大数据技术大会(BDTC)

评论