返回 登录
0

【CCTC 2017】大数据在运营商、图计算、大规模机器学习以及云时代的运用与实践

【CSDN现场报道】2017年5月18-19日,CSDN主办的中国云计算技术大会(CCTC)在北京朝阳门悠唐皇冠假日酒店盛装启航。本次会议践行“云先行,智未来”的主题,在Keynote环节之外精心策划了微服务、人工智能、云核心三大论坛及Spark、Container、区块链、大数据四大技术峰会,众多技术社区骨干、典型行业案例代表齐聚京师,解读本年度国内外云计算技术发展最新趋势,深度剖析云计算与大数据核心技术和架构,聚焦云计算技术在金融、电商、制造、能源等垂直领域的深度实践和应用,全程高能不断档,干货满满精彩纷呈。

19日上午,来自东方国信、清华大学、Hortonworks和北京偶数科技的技术专家来到大数据核心技术与应用实践峰会,与现场的开发者一同分享大数据在运营商、图计算、大规模机器学习以及云时代的运用与实践。

【大数据核心技术与应用实践峰会】在中国科学院计算技术研究所副研究员查礼主持下,正式开始。

图片描述

大数据核心技术-中国科学院计算技术研究所副研究员查礼

大数据核心技术在运营商的应用与实践

东方国信大数据中心总监王虎发表了《大数据核心技术在运营商的应用与实践》的主题演讲,本次分享主要包含三个方面,第一,运营商的大数据架构;第二,大数据核心技术体系;第三,运营商的应用与实践。王虎介绍到,过去运营商大数据平台分为Iaas/Paas/Saas三层,而未来运营商大数据平台将往更深层次方向演进,包括应用域、数据域、技术域、基础域、安全域和开放域。

图片描述

大数据核心技术-东方国信大数据中心总监王虎

经过运营商多年的建设,当前技术主要基于“开源+自主”研发结合,利用大数据核心技术,构建面向业务应用和平台应用的实践。而东方国信的Hadoop发行版本,是基于开源版本进行增强,兼容开源版本,能随着开源版本的升级而升级。基于开源社区源代码实现二次开发,转换为自己的核心技术,逐渐将应用与生产实践的验证部分代码提交给社区,比如: K8s+Docker底层源代码修订。

在大数据核心技术在运营商业务应用实践中,运营商的企业运营管理,围绕大数据为核心,面向客户和内部员工,实现企业业务运营和管理。而在业务应用实践中,王虎为分别介绍了大数据核心技术在数据、决策、营销、客户、绩效五个方面。最后,王虎对大数据核心技术在运营商未来发展中做了展望,主要包含六个层面,如实时能力、在线能力、学习能力、开放能力、数据能力和应用该能力。

图计算优化技术探索

清华大学计算机系副教授陈康发表了《图计算优化技术探索》的主题演讲,其内容包含四个方面,首先,是对图计算做简要介绍;其次,讲解使用体系结构局部性加速图计算;再次,讲解图的三维划分加速计算;最后,分享外存图计算的加速方法。图数据的来源非常广泛,Google和Facebook中都含有大量图片资源,因此,计算方式由数据并行到图并行转变。陈康表示,当前图计算呈现出四大特点:高访存计算比、数据局部性不好、结构不规则和受数据驱动。因此,优化数据载入的速度是重中之重。

图片描述

大数据核心技术-清华大学计算机系副教授陈康

随后,陈康介绍了图计算系统的计算框架,包括计算框架的作用,如便于编程、性能扩展和自动容错;以顶点为中心的计算框架和以边为中心的计算框架等等。在使用体系结构局部性加速图计算、图的三维划分加速计算和外围图计算的加速中,陈康运用了大量实例,为现场的开发者带来了详细的技术分享。

最后,陈康总结了使用体系结构相关方法优化图计算中表示,图计算由于其应用的广泛以及规模的扩展,现在仍然是热点的研究内容;通过体系结构相关的方法可以加速图计算的运行,如使用体系结构局部性加速图计算、图的三维划分加速计算和外存图计算的加速方法;图计算的不同模式,需要不同的加速方法。

基于Spark的面向10亿级别特征的大规模机器学习

Hortonworks技术专家梁堰波发表了《基于Spark的面向10亿级别特征的大规模机器学习》的主题演讲,本次分享主要分为五个方面:首先,梁堰波为大家介绍了基于Spark大规模机器学习的应用背景;其次,介绍了基于Spark无载体L-BFGS的运用;再次,分享了基于无载体L-BFGS的逻辑回归,第四,对性能进行了详细分析;第五,介绍了与现有的MLlib集成;最后,分享了未来研究方向。通过大量实例介绍,梁堰波表示未来还存在很多可以研究的方向,如不断的减少迭代、性能的提升以及借助数十亿参数预测广告点击率并形成真实案例,同时分享我们所得的经验和教训等等。

图片描述

大数据核心技术-Hortonworks技术专家梁堰波

云时代大数据管理引擎HAWQ++

Apache HAWQ Committer, PMC, 北京偶数科技有限公司架构师陶征霖发表了《云时代大数据管理引擎HAWQ++》的主题演讲,陶征霖首先为大家介绍了HAWQ及其发展历程,紧接着介绍了HAWQ体系架构、HAWQ内部架构、HAWQ优化器、HAWQ查询处理流程、HAWQ资源管理、HAWQ存储、HAWQ++新特性、HAWQ++安装部署、如何访问HAWQ++以及HAWQ++导入导出数据和HAWQ++结合MADlib的使用等等。

图片描述

大数据核心技术–Apache HAWQ Committer, PMC, 北京偶数科技有限公司架构师陶征霖

HAWQ资源管理的目标是负责向YARN申请资源和回退资源和为HAWQ用户,查询和操作符分配资源;三级资源管理包括全局资源管理、内部资源管理和操作符级别资源管理;多级资源管理和CPU和memory的管理。在HAWQ++导入导出数据中,可通过hdfs外部表导入导出数据、gpfdist外部表导入导出数据、COPY命令导入导出数据和hawq load工具导入数据。


更多精彩内容,请关注图文直播专题:CCTC 2017中国云计算技术大会Keynote视频直播,微博:@CSDN云计算,订阅 CSDN 官方微信公众号(ID:CSDNnews),即时获取大会动态。

评论