返回 登录
0

【BDTC 2016】大数据云服务论坛:云上的大数据探索

2016年12月8-10日,由中国计算机学会(CCF)主办,CCF大数据专家委员会承办,中国科学院计算技术研究所、中科天玑数据科技股份有限公司与CSDN共同协办,以“聚焦行业最佳实践,数据与应用的深度融合”为主题的2016中国大数据技术大会在北京新云南皇冠假日酒店隆重举办。

亚信数据大数据云平台部总经理何鸿凌

亚信数据大数据云平台部总经理何鸿凌主持了下午的“大数据云服务论坛”,他首先介绍了自己和今天将要分享的嘉宾,以及组织这个论坛的初衷,希望通过几位讲师的分享共同探讨大家在大数据基础设施方面一些经验。

图片描述

亚信数据大数据云平台部总经理何鸿凌

华为中央软件院大数据系统架构师孙桂林

第一位分享的嘉宾来自华为中央软件院 大数据系统架构师孙桂林,他以大数据多租户的核心挑战开始了今天主题为《华为大数据多租户技术探索与实践》的分享。他重点介绍了提权攻击应对思路和DoS攻击应对思路及手段。

图片描述

华为中央软件院大数据系统架构师孙桂林

主要的思路为缩小攻击面,延长攻击线,具体到提权攻击,他表示可以通过Partition来降低提权的影响,能隔离的通过Sandbox防护,Subtraction只开放高层和安全的接口,通过Guard来异常行为探测与处理。

DoS攻击方面通过RPC Fair Share来防止RPC的DDoS,通过Language Sandbox禁止敏感API的调用,通过Federation来租户不共享瓶颈节点,通过Container/VM来租户不共享集群等。

小米云平台存储组/融合云组研发工程师崔建伟

小米云平台存储组/融合云组研发工程师崔建伟发表《小米融合云实战》主题演讲。崔建伟表示,小米做融合云的动机主要基于三点,其一,业务快速发展,如管理成本、隔离需求、功能扩展等;其二,生态链需求,如公网访问;其三,融合公有云。而融合云的设计需要满足以下几点需求:首选是服务化,如统一身份认证、权限管理、控制与告警集成和Web console;其次是基于开源的方式;最后是系统扩展、功能扩展、多用户、公网调用支持以及核心功能抽象等。

图片描述

小米云平台存储组/融合云组研发工程师崔建伟

而小米融合云的存储需求为结构化存储(分布式数据库),支持记录级别的随机读写;对象存储,提供KB到TB级别文件的读写;计算需求是EMR能够部署不同的计算框架(MR/Spark);OLAP是数据仓库,列存储,支持Adhoc query的快速响应。崔建伟通过具体业务来说明如何使用,比如音乐推荐,索引/推荐信息可以放SDS,图片/音频可以放FDS,一些统计信息可以通过EMR来计算,报表信息可以存到OLAP然后query。

亚信数据DataFoundry平台负责人叶鹏

亚信数据DataFoundry平台负责人叶鹏带来的分享主题为《大数据服务在云原生应用中的使用探索》,他回顾了大数据应用开发过程中的困难点,然后介绍了如何通过原生应用或者PaaS平台解决这些问题,第三方面基于ServiceBroker的大数据实践方式,第四回顾了整个平台的效果。

图片描述

亚信数据DataFoundry平台负责人叶鹏

对于什么是云原生应用,他认为主要是使应用具有较强适应性、敏捷性、弹性,并且可协作的一组持续改进的方法论和工具集。他强调,大数据的应用不仅限于报表和展示,个性化推荐、智能引导、嵌入式应用才是其大价值体现。

中国联通信息化部数据中心项目经理李大中

中国联通信息化部数据中心项目经理李大中发表《联通集中化大数据能力开放平台实践》主题演讲。李大中首先分享了联通大数据集中平台,其范围囊括全国31省+总部集中系统,B/M/O域全量数据;频率为上千个接口,依据数据时效性,实时、日、月多种采集频度;规模是5000+节点Hadoop集群,55PB数据存储;而采集量为每天100TB数据。集中了用户从生活到工作、从通信到互联网的数据,覆盖24小时的位置、行为信息,信息的实时性和原始性保证了高价值性。

图片描述

中国联通信息化部数据中心项目经理李大中

中国联通能力开放平台依托总部大数据生产平台资源优势、数据优势,本着数据不出门的安全原则,通过租户承载的方式满足分子公司、外部合作伙伴的大数据建设和运营需要。开放平台基于保障租户资源独立、空间独立、数据加工过程私密的原则,通过多种手段确保不同租户之间资源隔离、互不干扰,为租户提供安全可靠的环境。屏蔽集群,租户对集群的访问通过客户端的模式,对租户提供独立的访问入口;租户可以通过客户端统一访问基于Yarn分配的框架和独立部署框架,客户端是由独立的一台虚机承载。

腾讯云大数据平台研发负责人陈鹏

腾讯云大数据平台研发负责人陈鹏分享的主题是《腾讯大数据能力输出之路》。他首先介绍了数智方略产品的特点,包括高度集成化,接入、存储、离线/实时计算、机器学习、可视化展现服务;提供可拖拽式的支持分钟级调度的任务调度系统;提供高性能多维分析引擎;提供全局设备、组件、任务纬度的运维系统。

图片描述

腾讯云大数据平台研发负责人陈鹏

对于DockerOnGaia解决什么问题,他表示主要有资源共享、异构环境共存、动态扩缩容、容灾容错、自动化运维、灰度运营。

最后他详细介绍Gaia的Scalable Fair Scheduler、服务注册与发现、资源控制接口、EMC、网络带宽管控、网络入带宽、Disk IO、CPU管控、容器中资源显示等特性。

阿里巴巴高级产品专家刘吉哲

阿里巴巴高级产品专家刘吉哲发表《算法平台架构与应用 On MaxCompute》主题演讲。本次议题主要分三个方面,即阿里云大数据计算服务、算法平台架构以及算法应用。而阿里云大数据计算服务包括三个层面:存,数据大集中,存入MaxCompute;通,统一规范,打通各个业务部门;用,推动数据开放和交换,促发展,养生态。目前,阿里集团99.9%的数据分析与算法都已经跑在大数据计算服务上面。

图片描述

阿里巴巴高级产品专家刘吉哲

阿里的算法平台主要服务于两类用户,即算法开发者和算法使用者。Project是最基本的资源隔离单位,数据格式分为结构化(MaxCompute表、KV表及Map表)和非结构化(OSS上的文件),而数据接口包含分层抽象(方便水平扩展、对接不同环境)、数据有序和接口实现(兼容性)等,采用平台与算法解耦,MPI计算框架与算法分离的架构设计,可实现本地开发、调试,线下、线上的无缝集成等等。并且该算法的应用包括身份证、驾驶证、营业执照、门店、图片标注、图像搜索、图像车辆识别、视频广告植入、语音识别等等。

去哪儿网实时数据平台总监吕晓旭

第二天下午的大数据云服务论坛的最后一位演讲嘉宾是来自去哪儿网实时数据平台总监吕晓旭,他的演讲主题是《Qunar实时数据云平台实践》,他首先介绍了Prism实时数据平台提供哪些服务,主要包括:日志实时监控 - ELK、数据总线 - Kafka、数据实时分析 - Spark Streaming/Storm/Flink、数据存储 - Elasticsearch as a Service、OLAP/试验平台 - Zeppelin+Spark/Flink。

图片描述

去哪儿网实时数据平台总监吕晓旭

随后他介绍了Prism的部署方式,主要是通过申请虚拟机/添加账号,用salt部署,但是这样面临的问题也非常明显,经过研究之后,他们采用docker+marathon+mesos的方案。这样也解决了快速增减容量、新工具快速支持、提高硬件资源利用率、降低数据软件的使用成本。

更多大会精彩内容,请关注CSDN“2016中国大数据技术大会” 专题报道;微博@CSDN云计算,微信搜索“CSDN大数据”订阅号获取大会精彩资讯。

评论