返回 登录
0

聚焦应用和图计算、十亿级大规模机器学习,大数据议题曝光

5月18-19日,北京 • 朝阳门悠唐皇冠假日酒店,CSDN主办的中国云计算技术大会将围绕最热门、最前沿的云计算技术与行业实践重磅登场。本次大会上,超过50位Spark、Docker、Mesos、Tensorflow、Serverless方面的专家将汇聚一堂,和超过2000名开发者共襄盛举。

在19日的大数据核心技术与应用实战峰会上,来自Hortonworks、滴滴出行、科大讯飞、东方国信、清华大学、HanSight瀚思、金电联行、北京邮电大学、Apache HAWQ团队等九位专家将带来各自领域的最新实践,议题极具参考价值,涵盖大数据在金融、运营商的最新应用,也包括图计算技术优化、十亿级别特征的大规模机器学习、HBase在滴滴的应用、大数据管理引擎HAWQ,大数据安全分析在电子银行业的探索和实践等热点话题。目前官网正在火爆售票中,点击购票

具体议程如下:

图片描述

查礼 出品人

图片描述

出品人简介:查礼,现任中国科学院计算技术研究所副研究员,网络科学与技术重点实验室系统软件组组长。主要研究方向是分布式系统及大规模数据计算,包括分布式系统软件体系结构,大规模分布式资源管理及任务调度,大规模数据计算系统等。2007年以来,作为技术总负责人参与国家863计划课题“中国国家网格软件研究与开发”,负责软件总体设计和核心技术研发。参与XtreemOS,OMII-EU/OMII-UK欧盟第六框架和英国e-Science国际合作项目。是Hadoopin China开源社区发起人,Hadoopin China 2008-2011大会组织者。

王虎 东方国信

图片描述

讲师简介:王虎,东方国信大数据中心总监。多年来专职服务于电信行业的BI、大数据(Big Data)领域的技术及业务研究,参与并实施过中国移动、中国电信、中国联通等多个项目,主要为电信行业的信息化建设提供技术咨询和实施服务,熟悉电信企业从生产系统到分析系统的整个信息化流程,对企业的信息化建设方面,能够提供从数据中心建设到应用系统开发的一整套解决方案,并对电信行业的高端客户管理、预测、维系、服务有着深刻的理解和研究,曾多次参与相关业务/数据规范的编写和制定,有丰富的数据库、软件方面的设计、研发、管理经验。

演讲议题:大数据核心技术在运营商的应用与实践

议题简介:

  1. 运营商未来大数据架构演进方向探讨;
  2. 基于“开源+自主研发”相结合的运营商大数据核心技术体系分享,从传统的数据中心走向以”云计算+大数据(平台+数据)+平台工具”软件的私有云;
  3. 运营商大数据核心技术应用场景分享,包括云计算实践、大数据实践、业务应用实践。

听众收益:运营商大数据架构,运营商大数据技术体系,运营商大数据技术在平台、决策、营销、服务等业务应用方向。

陈康 清华大学

图片描述

讲师简介:陈康,清华大学计算机系副教授。1999年在清华大学计算机科学与技术系获得工学学士学位,其后在清华大学计算机科学与技术系高性能计算研究所攻读博士学位。2004年7月获得工学博士学位。获得博士学位之后加入英特尔(Intel)中国研究中心有限公司,任高级软件工程师。2007年开始至今在清华大学计算机系工作。主要研究方向是分布式系统,存储系统。参加与主持多个国家863,973以及自然科学基金项目。2014年度电子学会技术发明一等奖,2015年度国家技术发明奖二等奖。在分布式计算方面,主要工作包括将Paxos算法和纠删码结合在一起,提出新的协议,能够满足跨数据中心的一致性要求,同时降低数据传输量(HDPC2014)。在云计算方面,通过竞价模式,在满足可靠性要求的同时,能够降低系统的开销(HDPC2015)。在移动计算方面,通过修改Android的操作系统的交换分区方式,提升应用程序的响应性能(IEEE Transactions on Computers 2015)。并在图计算,计算机系统结构方面也进行了研究。

演讲议题:图计算优化技术探索

议题简介:图计算是今年来的一个研究热点,在机器学习,数据挖掘中有重要的作用。图计算的性能也是限制图计算应用的重要原因,如何提高图计算的性能是系统领域一个重要的研究热点。本讲座将对图计算方法的性能研究进行介绍,以几个具体的例子帮助听众理解相关的优化方法。

听众收益:体系结构的介绍,图计算的热点分析,单机图计算与多机图计算优化方法的异同。

梁堰波 Hortonworks

图片描述

讲师简介: Yanbo is an Apache Spark Committer working at Hortonworks. His main interests center around implementing effective machine learning algorithms and building machine learning applications based on scalable distributed system. He is an active Apache Spark contributor, delivered the implementation of some major MLlib algorithms. Prior to Hortonworks, he was a software engineer at Yahoo!, Meituan and France Telecom working on machine learning and distributed system.

演讲议题:基于Spark的面向十亿级别特征的大规模机器学习

议题简介: Apache Spark MLlib provides scalable implementation of popular machine learning algorithms, which lets users train models from big dataset and iterate fast. The existing implementations assume that the number of parameters is small enough to fit in the memory of a single machine. However, many applications require solving problems with billions of parameters on a huge amount of data such as Ads CTR prediction and deep neural network. This requirement far exceeds the capacity of exisiting MLlib algorithms many of which use L-BFGS as the underlying solver. In order to fill this gap, we developed Vector-free L-BFGS for MLlib. It can solve optimization problems with billions of parameters in the Spark SQL framework where the training data are often generated. The algorithm scales very well and enables a variety of MLlib algorithms to handle a massive number of parameters over large datasets. In this talk, we will illustrate the power of Vector-free L-BFGS via logistic regression with real-world dataset and requirement. We will also discuss how this approach could be applied to other ML algorithms.

陶征霖 Apache HAWQ

图片描述

讲师简介:陶征霖,浙江大学本硕毕业,先后就职于Oracle,EMC,Pivotal和北京偶数科技有限公司。一直从事数据库相关领域的开发研究工作。隶属于HAWQ核心团队成员, 参与了HAWQ 1.X ~ 2.0的核心研发工作,后任Apache HAWQ Committer和PMC成员。现就职于创业型公司北京偶数科技有限公司,负责设计研发高性能HAWQ++大数据管理引擎。

演讲议题:云时代大数据管理引擎HAWQ++

议题简介: HAWQ++是由Apache HAWQ创始团队打造的HAWQ增强企业版本,采用了MPP和Hadoop结合的创新MPP++技术架构,高可扩展,遵循ANSI-SQL标准,提供PB级数据交互式查询能力。并且提供对主要BI工具的描述性分析支持。兼容Oracle,GPDB和PostgreSQL,原生支持Lava和Kubernetes平台,可以帮助企业无缝迁移到最新的云计算平台。演讲涵盖以下三大块内容:1.Apache HAWQ的总体架构和主要模块简介。2.HAWQ++相比于Apache HAWQ的新特性。3.HAWQ++的安装部署和基本用法。

听众收益:本次演讲适合所有希望了解Apache HAWQ或HAWQ++的用户。帮助用户大体了解HAWQ的基本架构和主要组件,熟悉HAWQ的基本用法,包括sql/plsql,odbc/jdbc以及madlib的使用。共同探讨HAWQ的适用场景,助力用户数字化转型。

熊永平 北京邮电大学

图片描述

讲师简介:北京邮电大学网络技术国家重点实验室副教授,中科院计算所博士,先后在诺基亚研究中心、中国电子信息产业研究院等单位,从事网络安全、移动物联网、数据科学和数据挖掘等领域的研究开发工作,主持和参与了国家自然科学基金、科技部重大专项、973等多项国家科研项目。在IEEE Transactions on Mobile Computing、ACM MobiCom等国内外著名期刊会议上发表论文30多篇,单篇论文他引次数超过210次。近年来在大规模数据处理和机器学习领域进行了深入研发,其研究成果转化到保险、金融、能源等多个领域的大数据应用系统中,取得了良好的效果。

演讲议题:基于Spark的统一数据管理与数据探索平台

议题简介:随着大数据理念的不断普及,计算机行业正在变成真正的信息行业,企业关注的重点正在转向数据,整合挖掘各类数据资产实现精细化的业务运营已经成为企业的共识。而这种精细运营依赖于高效的数据管理和精准的数据洞察,这就需要发现隐藏在各种原始业务数据相互关联背后的本质和规律。而实际业务数据往往分散在孤立的信息化系统和关系数据库中,缺乏统一的数据处理平台。本团队设计开发了以内存计算框架Spark为核心的统一数据管理和探索平台,该平台提供规范化的数据接入和各种语言的数据处理任务接口,提供以数据表为计算单元和DAG模型来支持复杂的数据Transform过程,进而支持各种数据探索、相关性分析(离散相关、近似相关、简单相关等)、可视化分析等手段,对海量数据进行统一管理、探索和建模。

听众收益:

  1. 了解企业级大数据应用中真正需要的大数据平台组件和功能;
  2. 保险等行业应用中的数据相关性分析模型。

李扬 滴滴出行

图片描述

讲师简介:李扬,现任滴滴出行资深软件开发工程师。2015年加入滴滴出行基础平台部,主要负责HBase和Phoenix以及相关分布式存储技术。开发了基于HBase的地理位置索引程序,解决了key-value数据库对于查询给定地理范围内所有用户GPS轨迹困难的场景。在滴滴之前,曾在新浪担任数据工程师,专注于分布式计算和存储。

演讲议题:HBase在滴滴出行的应用场景和最佳实践

议题简介:随着滴滴在业务上的迅猛发展,如何在分布式存储上满足用户对海量数据的实时查询是日常工作的重要内容。在这种多租户场景下,如何资源分配,风险管理,成本控制,监控及运维面临着各种挑战。本议题将介绍HBase在滴滴出行针对各种典型应用场景及解决方案。

听众收益:将了解HBase在多租户场景下各种使用场景,及管理解决方案。

尚峰 金电联行

图片描述

讲师简介:尚峰,金电联行首席技术官。1998年清华大学机械工程系硕士毕业,2002年留学日本,2005年情报数理专业博士毕业,现任金电联行(北京)信息技术有限公司首席征信技术官,曾任职多家信息技术相关公司,经历了信息技术的政务/企业信息化、数据仓库、互联网、电子商务等多个发展阶段,主导过各类型信息系统的研发。随着大数据技术发展,目前专注于大数据技术应用方法论研究及具体实践。

演讲议题:数据驱动的大数据金融应用

议题简介:金融行业是新技术应用的领先行业,也是个业务需求复杂多样的行业。传统Fintech为金融行业解决了大量的问题,但随着各种理念创新、技术创新,金融行业面临更多的挑战。大数据理念与技术的兴起,似乎给金融行业迎接新挑战提供了一种解决途径,但大数据的应用同样面临众多问题,例如专业知识、人员配备、数据聚合、技术组合等。本报告将介绍,在借鉴工业革命的组织理念与方法基础上,高效、高质、规模化地利用(大)数据技术应对快速、多样化金融需求的理念与方法,同时给出金电联行在此方面的探索实践。

张军 HanSight瀚思

图片描述

讲师简介:张军,HanSight瀚思高级技术工程师。目前负责HanSight瀚思的产品定制化开发工作,服务的客户包括政府、公安、银行、企业。曾任天云趋势项目经理,主要研究大数据处理基础架构及机器学习如何在大数据集上的应用,在此期间通过了Horntowrks的HCAHD、HCAHA的认证,并成为Horntoworks的认证讲师,是国内通过Hortonworks Hadoop 1.0及2.0认证的第一人。

演讲议题:大数据安全分析在电子银行业的探索与实践

议题简介:随着移动互联网的兴起,电子银行的使用逐渐普及。人们对于电子银行的依赖,也让金融行业成为对安全性要求最高的行业之一。整个银行系统所承担的责任正在不断的放大,这也给银行业内的安全运维人员造成了巨大的压力。在应用不同的安全产品后,银行运维人员发现:在发生状况或已有类似情况发生过以后才能触发告警的安全技术已经无力阻挡当下的威胁,大数据安全分析这种主动智能技术能够有效为安全保驾护航。内容大纲:

  • 大数据发展现状;
  • 电子银行业的机遇与挑战;
  • 《网络安全法》的出台为电子银行业保驾护航;
  • 当安全遇到大数据;
  • 大数据安全分析架构;
  • 大数据安全分析在电子银行业的探索与实践。

听众收益:近年来“互联网+”已经渗透进各行各业,在金融领域,各类服务陆续上线,但与此同时,各类诈骗层出不穷,这不免让大家在享受便捷金融服务的同时对虚拟世界的安全问题产生了担忧:资金是否安全?资金是否会不知不觉从账号中不翼而飞?电子银行是否安全?针对以上问题,本议题将着重介绍,在数据爆炸时代,大数据安全分析如何帮助电子银行业及时发现欺诈,保护财产安全。

刘君 科大讯飞

图片描述

讲师简介:刘君,科大讯飞大数据实时计算方向负责人,2012年加入讯飞以来主要从事大数据实时分析及大数据平台构建相关的工作,为公司提供企业级的大数据能力输出平台,通读过jstorm源码并做过部分二次开发,有多年的实时计算、Hadoop、Spark的开发经验。

演讲议题:讯飞语音云实时分析架构及实践

议题简介:当前讯飞语音云每日会话量30亿,在线会话量5亿,如何实时感知语音云服务质量至关重要。讯飞语音云实时分析平台支撑着线上几十项任务,从各个层面支撑了语音云的实时服务质量和实时报表的稳定运行。本次分享,着重介绍讯飞语音云实时分析的架构选型、如何解决异地数据分析问题、如何采用disruptor提高Flume吞吐量、如何解决语音云数据窗口聚合问题、以及如何保障高效、稳定的集群工作状态。

听众收益:

  • 了解实时架构选型过程;
  • 掌握如何解决异地数据分析问题;
  • 了解采用disruptor提高flume TPS;
  • 了解分享窗口聚合业务处理经验;
  • 掌握实时作业优化及集群运维经验。

更多详细信息,请关注CCTC 2017 官方网站,现在购买享受更多优惠,点击购票


图片描述

评论