返回 登录
0

大数据的东风之势

阅读40391

原文:Riding the Big Data Tiger
译者: KK4SBB 责编:何永灿(heyc@csdn.net)

本文作者是微软开发主管Omid Afnan。Omid将在9月26-27日在亚特兰大召开的微软机器学习与大数据峰会上做“Go Big (with Data Lake Architecture) or Go Home!”的演讲。

我与大数据打了多年的交道,首先搭建了平台供微软自己在线服务所使用,包括Bing搜索引擎,最近又将其扩展为一项可供企业和开发者用户使用的服务。

我们Bing团队搭建强大可靠的大数据平台的经历可谓是相当艰辛,不过我也从中学到不少。完成一个强大完善的平台是我们每一位超级极客的天性。但对我个人而言,将数据池服务这样复杂的系统变得简单易用比仅仅作为用户使用这个平台有着更深远的意义。

如今,我在与开发者、架构师和IT经理交谈时,尽管他们热衷于尝试或者接受新的技术,如Hadoop和Spark,但他们之中的许多人并不确定如何着手开发,或是不清楚需要具备哪些预备知识和技能。

我们在开发Azure Data LakeU-SQL,以及Visual Studio等工具时,秉持的观点是我们所面向的团队已经在现有技术上投入了不少精力,比如SQL、数据仓库、通用开发语言等,他们也需要及时地去拥抱大数据的世界。

大数据的很重要一项工作就是搜集原始数据,将其加工成中间数据,然后作为一个“数据平台”来驱动数据挖掘和汇报过程,最终提炼出商业价值。我们的方法是通过对人们已知的信息建模,使得数据平台的概念和处理代码变得非常容易。这也是U-SQL在传统的SQL+C#语言背后隐藏强大的分布式计算的原因,因此许多程序员很容易上手操作。

我花了不少时间与这些运行大数据流的人们交流,有许多值得分享的经验。在亚特兰大召开的微软大数据峰会上,我将会分享若干个微软的客户在能源、零售业和技术行业用大数据解决问题的案例,我还会提供一些模板教你如何在现有的IT环境下实现大数据项目。我也期待在大数据行业摸爬滚打多年的你能给我和我的同事分享经验。

我们的最终目标是希望大数据能与商业团队和IT部门现有的技术融合和互补。我们开发的工具也定了一个小目标:使得用1000个内核计算100PB数据的用户体验如同在你的台式机上操作一样。

评论