在阿里云的官网打开大数据部分(整个大数据部分统称为数加),其中包括:大数据基础服务部分,MaxCompute、ADS、流计算、大数据开发套件;人工智能部分,机器学习(基础平台是PAI)、语音识别、ET等;分享大数据交流学习裙:不定期分享视频资料722680258,需要学习大数据欢迎加入,数据分析展现部分,数据可视化(大屏、BI报表)、I+关系网络分析(安全领域用的比较多);数据应用部分,推荐引擎(提供面向终端用户的服务,以大数据中间件存在)等。天池比赛也是基于数加平台,数加数据市场相当于大数据的App Store。

数加是什么?数加=数加平台+数加市场+数加应用。平台相当于OS部分,其上有App Store(即市场),市场上有大量的应用(包括官方应用和第三方应用)。数加平台基于阿里十几年在大数据上的经验积累,在对内的平台BASE上做了一个对外的实例即数加。数加平台除了BASE,还包括多租户、账号、权限、安全、meta、计量计费、Open API、数据市场、数加网站等模块,也包括算法平台PAI。

数加平台=大数据OS=大数据的IOS。大数据OS希望提供高度集成的大数据平台,将计算引擎、数据开发工具、数据采集和传输工具、数据分析工具、机器学习平台无缝集成,提供端到端的一站式用户体验;提供云数仓服务(对标redshift),革传统数据仓库的命,让基于Hadoop自建数据平台成为往事,让客户专注于业务系统开发,把用户数据还给用户,提供安全隔离的租户空间;是开放的大数据OS,兼容开源数据生态,支持各种第三方数据应用在上面安装使用;支持数据交换和分享,让用户安全,可计量的使用他方数据。


大数据生态中,数加平台最底层是计算平台,还包括一系列支撑平台、数据开发和算法开发,对外提供大数据的基本职能是SQL开发(是Web界面,方便易用)、MapReduce开发、算法开发(PAI)。Open API层可与外部应用打通。数加数据市场中,包括数据服务(包括API服务)、数据应用(基于整个数据开发平台,以及数据API等各种东西)。

上图中,下面是数加平台,核心的东西是数据开发、数据分析、应用平台,上面是各个领域的应用。

阿里早年烦恼

很早以前,阿里很多的BO用的都是IOE,其存储昂贵、可扩展性差。阿里各个分支有不同的尝试,B2B、支付宝尝试的是Greenplum,淘宝选择了Hadoop。此时产生了数据孤岛问题,各业务部门的数据散落在多个集群,彼此之间数据不通,数据共享太难,缺少权限安全的管理。所以需要做数据仓库来把数据集中在统一的一个平台来管理。数据共享的问题解决之后,由于数据不集中,也没有较好的数据仓库规划,导致数据被拖来拖去、重复存储和计算,出现了重复建设的问题。

阿里幕后

阿里大数据背后的挑战

  • EB级的数据算不算得动?

  • 百万张表如何管理?

  • 数据质量之殇?

  • 大集中的数据如何确保安全?

统一的自主可控的大数据平台

在Hadoop的基础上,做了统一的自主可控的大数据平台,其特点是:统一平台,数据大集中,统一的存储,统一的计算平台,统一的数据开发平台,统一的元数据又会涉及到数据治理;资源共享,弹性分配,基于ODPS多集群技术,由数以万计的服务器提供超级计算能力,按需弹性分配给各数据开发团队;数据隔离,权限管理,基于ODPS多租户机制,各部门可独立管理自身的数据,独立做数据授权。

Logo

CSDN联合极客时间,共同打造面向开发者的精品内容学习社区,助力成长!

更多推荐