返回 登录
0

1024大数据技术峰会:探究大数据核心技术与架构

由互联网技术联盟(ITA1024)主办的1024大数据技术峰会,4月23日将在知春路丽亭华苑酒店举办,11位来自一线互联网企业的大数据核心研发团队骨干成员,针对选型开源技术搭建大数据平台、持续运维、优化提升大数据平台的各项性能,技术架构演进以及实现应用大数据支持业务创新发展,这几大核心展开深入的分享和交流。

通过来自顶级互联网公司的最佳实践,将真实呈现出一系列大数据真正改变行业玩法的技术架构和创新应用,这将是针对大数据核心技术与架构的最顶级峰会。

点击这里报名参会

大会会议日程:

图片描述

讲师姓名及简介:

议题一 :创造数据产品驱动商业价值

分享LinkedIn如何从数据中挖掘价值的一些案例。同时也将探讨,LinkedIn是如何把商业、数据和开发相结合,通过数据产品的形式带来每年数十亿美金的商业价值。

讲师:李海鹏(Leo Li) Linkedin Sr Manager

拥有丰富的互联网行业大数据相关的实战经验,热衷于利用数据和技术来解决商业问题。作为现任LinkedIn资深经理,Leo带领团队开发的数据产品,对LinkedIn营收的高速增长做出了巨大的贡献。在加入LinkedIn之前,Leo曾负责Amazon在线显示广告平台的产品设计,以及互联网广告平台类初创公司的商业智能和运营。

图片描述

议题二 :使用Apache Kylin搭建企业级开源大数据分析平台

首先简单介绍Apache Kylin的核心架构和工作原理; 然后介绍如何使用Kylin结合Hadoop/HBase等主流开源工具构建大数据分析平台;着重讲解如何使用Kylin做企业级部署,满足企业对高性能,高可靠,高安全等要求。

讲师:史少锋 Kyligence技术合伙人&资深架构师,Apache Kylin PMC

资深软件架构师,Apache Kylin核心开发者和项目管理委员会成员(PMC),专注于大数据分析和云计算技术。曾任eBay全球分析基础架构部大数据高级工程师,IBM云计算部门软件架构师;曾是IBM公有云Bluemix dev&ops团队核心成员,负责平台的规划、开发和运营。

图片描述

议题三 :大数据时代的时序数据

InfluxDB是一个开源分布式时序、事件和指标数据库。使用Go语音编写,无需外部依赖。其设计目标是实现分布式和水平伸缩扩展。本次分享会对 InfluxDB 进行全面的讲解,包括InfluxDB的原理与架构,并且会指出InfluxDB存在的“坑”。具体会从InfluxDB的基础概念、如何使用InfluxDB、集群设计和存储引擎几方面进行。

讲师:陈超 七牛技术总监

国内著名大数据专家,七牛云技术总监,全面负责七牛所有数据产品的设计与研发,近年来一直专注于分布式计算与机器学习等领域,有非常丰富的分布式系统设计与实现的经验,在分布式数据库方面也有深入研究。多次担任spark summit china、open cloud、大数据峰会等大型会议演讲嘉宾。

图片描述

议题四:数据处理和统一调度系统优化

如何简化用户传输,清洗,建立数据仓库等流程,降低用户使用大数据的门槛,提供丰富的API接口,避免用户使用不当遇到的各种坑;基于docker的调度管理系统负责定时或者将用户指定的image加入统一调度集群,具有任务依赖管理,高效调度,自动容错,优先级控制,环境隔离的优势,免除用户各种运维相关问题,专注核心业务逻辑的开发。

讲师:申贤强 搜狗资深高级工程师

搜狗基础平台部,主要负责Hadoop、HBase、Docker等基础平台的开发和建设。毕业于中科院计算所,曾任百度网页搜索部高级工程师,负责百度分布式架构开发。

图片描述

议题五 斗鱼实时计算平台的演进–互联网风口公司实时计算的成长

主要分享的内容包括:
1. 实时日志检索:grep+awk –> Hive UDF –> ELK
2. 多维监控系统HBase –> TSDB + 自定义UI
3. 实时流计算 Redis –> Storm + Spark Streaming

讲师:吴瑞诚 斗鱼大数据团队负责人

全面负责斗鱼大数据团队的平台规划、系统架构设计、集群环境运维、技术预研与落地,也是从0到1搭建公司大数据平台和组建团队的核心。在大数据方向,经历了大公司高大上的技术规模,也经历了一个小公司的大数据平台成长之路。背靠开源生态,应用短平快的方式,支撑起一个千万级用户的在线直播平台。曾任淘宝大数据开发(HBase)高级工程师、一号店应用架构师。

图片描述

议题六 大数据机器学习在OTA酒店服务的应用

携程做为国内间夜量第一的OTA,日增量开关房操作日志千万级大数据,通过机器学习人工开关房操作时的变量与结果,预测系统中假可订真满房的房型,指引人工询房及时关房,降低满房率。预测出假满房真可订的房型,机器代替人工主动打开假满房的房型售卖,提高库存竞争力。本次分享将重点介绍XGBOOST/GBDT等有监督的机器分类算法中变量预处理、变量筛选和淘汰、算法调优等方法。也会分析模型上线技术架构以及经验教训。

讲师:潘鹏举 携程酒店研发部BI经理

负责酒店服务相关的业务建模工作,主要研究方向是用机器学习实现业务流程自动化、系统智能化、效率最优化,专注于算法实践和应用。多年数据从业者,扎根于互联网机器学习和深度学习领域,曾从事数据分析、闯荡咨询行业、当数据架构师、数据PM,期望通过算法和业务的结合提升业务,用数据创造更大的价值。
2012年加入携程,从事数据分析、数据架构等相关工作,2014年后专注机器学习领域,带领团队用算法帮助业务提升效率、减少人力成本、提高业务产量,用算法创造价值。目前和团队同事一起致力于用机器学习优化酒店预订服务流程,提高客户感受,让机器做机器擅长的事情。

图片描述

议题七 雪球大数据体系探索

介绍雪球大数据体系从无到有的搭建过程,在公司内部的推广过程,以及当前由大数据体系支撑的用户画像,推荐,反垃圾,广告,用户筛选等业务应用。

讲师:唐福林 雪球首席架构师

负责雪球后端整体架构,性能和稳定性提升,以及大数据体系建设。 在加入雪球之前,作为前新浪微博技术委员会成员,微博平台资深架构师,在微博期间深度参与微博快速增长期的性能和稳定性问题解决。

图片描述

议题八 打造又快又准的广告分析系统

分享内容包括:

  1. AdMaster 数据收集系统的演进, 相关开源软件选型和改进
  2. 日志清洗系统的演进, 相关开源软件选型和改进
  3. 数据分析平台和统一监控系统的设计开发

讲师:刘喆 Admaster资深架构师

主要负责数据处理的全流程技术支持, 高性能和高可用的分布式架构设计, DSL 语言抽象, Hadoop/HBase/Storm/Spark等大数据平台优化。曾就职百度, 负责当时全球规模最大的 hadoop 平台的运维开发工作,曾任人民搜索运维总监。多年专注于数据挖掘/大数据/DSL/系统架构, 对分布式计算/分布式架构和程序语言有深入的理解, 曾多次受邀分享Hadoop/spark/开源软件等相关经验。

图片描述

议题九 飞流:一个通用的实时统计分析平台设计与实践

分享58赶集内部已经落地的实时统计分析平台(内部代号“飞流”)。该平台无需编程,任务开发完全配置化;提供了丰富的数据统计分析方法,以及多维分析功能;具备很好的实时性、扩展性与可靠性。将重点介绍“飞流”平台的整体设计与实现细节。

讲师:赵健博 58赶集大数据平台资深架构师

负责58整个大数据平台的研发,应用与发展规划。2009年毕业于中国科学院计算技术研究所,先后就职于百度、奇虎360、58赶集担任大数据领域专家,主要研究领域包括分布式存储与计算系统等。

图片描述

1024大数据技术峰会免费报名地址:http://huiyi.csdn.net/activity/product/goods_list?project_id=2889

评论