返回 登录
2

【SDCC讲师专访】腾讯周建军:支持腾讯万亿级计算,StreamSQL比Storm好在哪里?

每个人的成长曲线不同,有的人在研究生之时就已有相当知名的产品和框架,从而在接下来的工作中一路顺风顺水,有的人缺需要经历一个又一个的坑才能成长,不管是前者的聪明高效,还是后者的笨鸟先飞,他们都是在迈着脚步不断地向前。不妨停下脚步看下一些同行,以激励自己更好地前行。CSDN与你相约SDCC 2017·深圳站讲师。

目前我们已经对以下讲师进行了会前专访,让你从大牛身上获得更多的真知灼见和他们的技术成长心得:

更多峰会嘉宾和议题请点击官网:http://bss.csdn.net/m/topic/sdcc_2017/shenzhen

2017年6月10-11日,SDCC 2017将在创新之都深圳火热开启。据悉,腾讯数据平台部高级工程师周建军将在SDCC 2017·深圳站之大数据技术实战峰会带来题为《StreamSQL实时计算平台的挑战及解决方案》http://bss.csdn.net/m/topic/sdcc_2017/guest?mid=1386&id=5153&tab=shenzhen的分享。

以下为专访正文:

CSDN:StreamSQL实时计算平台的设计初衷是什么?相对于传统的实时计算平台Storm有什么区别和优势?

周建军: StreamSQL实时计算平台的设计初衷是为了降低实时计算的开发门槛,提高实时计算任务的开发效率。

首先StreamSQL是基于Storm的实时计算平台,它是将SQL解析为Storm上的topology,解决了Storm原生API使用复杂,上手难度高的问题。StreamSQL新增了窗口统计功能是我们的系统即支持实时流式计算又支持批量数据统计的功能很多基本功能。

另外StreamSQL自带被压机制,相对于传统Storm具有更可靠的稳定性。在底层计算平台层面StreamSQL使用的是腾讯的TStorm,TStorm在资源调度策略、被压机制及nimnus HA等方面相比于社区的storm都有很多改进。在资源隔离层面StreamSQL使用的是腾讯内部的GaiaStack,TStorm的很多心跳信息都是依赖于磁盘IO,GaiaStack在IO层面做了更细粒度的控制,更符合我们的需求。

能否和我们讲解下StreamSQL实时计算平台的架构设计?应用了哪些技术?

周建军: StreamSQL实时计算平台主要分为三层,最上层是接入层,提供了UI和Stream API的形式提交实时任务;中间层是数据管理层,主要负责元数据管理、任务管理、权限管理等;最下面是核心层,负责SQL的解析及各种计算算子的实现。系统设计过程中在SQL语法层面使用antrl作为SQL语法定义和语法分析的基础工具;在语法扩展方面StreamSQL通过新增窗口来对流式数据做聚合统计;在内建函数层面StreamSQL引入HyperLogLogPlus算法对大规模数据做去重。

CSDN:在架构设计过程中有趟过哪些坑?又是怎样解决的?

周建军: StreamSQL是基于Storm的实时计算平台,但是在将SQL转换为storm topology时发现传统的将不同计算逻辑放到Storm不同组件是行不通的。因为通常情况下一个实时任务的计算逻辑非常复杂,这样生成的Storm topology的长度很长,我们都知道Storm组件上的任务具体放到哪个物理节点是依赖与Storm的调度策略,这样就会导致我们大量的中间计算结果频繁在不同计算节点之间做数据交换,这种不必要的数据交换和网络传输严重影响了平台的性能和计算任务的实时性,所以我们在SQL转换过程摒弃了这一思想,我们更提倡尽量将计算逻辑集中到一个组件中完成,然后可以通过增加task个数或者worker个人来增加任务的并行度。

CSDN:StreamSQL实时计算平台的适用场景有哪些?能否和我们分享些典型的案例?

周建军: StreamSQL实时计算平台适用的场景有实时推荐、实时统计分析等。常见的如广告推荐,根据上报的用户浏览点击行为数据,实时的给用户推送相关广告信息;比如新上线一个系统,使用StreamSQL做实时统计分析就可以拿到10分钟粒度的用户登录/注册等情况,这样就能更快的给产品人员提供相关信息,以便及时作出策略调整。

CSDN:目前平台也是在不断完善中,您认为StreamSQL实时计算平台还有哪些亟待解决的问题?未来的研究重点是什么?

周建军: StreamSQL从2013年至今已经有4个年头,在腾讯内部目前有大量的应用,计算规模每天都是万亿级别,整个平台经历几年的发展也趋于稳定。目前我们正在通过和腾讯云合作,通过对StreamSQL平台的产品化包装对外输出我们的超大规模实时计算能力。

SDCC 2017·深圳站之架构&大数据技术实战峰会将于2017年6月10-11日于深圳南山区中南海滨大酒店举行,集阿里、腾讯、百度、滴滴出行、Intel、微博、唯品会的资深架构师和一线实践者,纳知名研发案例,遇见苏宁云商大数据中心总监陈敏敏、Apache RocketMQ联合创始人冯嘉、饿了么大数据平台部总监毕洪宇等大牛。
票务火热,预购从速,团购立减1000元,更多嘉宾详细议题敬请关注大会官网和票务点击注册参会

评论