返回 登录
10

大数据?别唬人了

阅读3706
大数据可能是现在最炙手可热的技术名词了。热就意味着有泡沫,有值得反思的地方。Quartz的Christopher Mims 5月6日发表了一篇文章,名为“大多数数据都不大,假装大数据其实是瞎浪费钱”,有理有据,推荐一读:http://qz.com/81661/most-data-isnt-big-and-businesses-are-wasting-money-pretending-it-is/

文中主要指出的观点如下:
1. 一般企业根本用不着大数据
即使是Facebook和Yahoo这样的互联网巨头,大多数任务也用不着大数据。Facebook大部分任务是MB到GB范围,Yahoo集群所处理的任务数据中位数也只有12.5GB。难怪微软今年2月曾经发表过一份技术报告(http://research.microsoft.com/pubs/179615/msrtr-2013-2.pdf ),大致的结论是,其实大部分类型的任务scale-up的方案更有优势。

2. 很多人说的大数据其实是数据分析的同义词,完全是在添乱
许多讲大数据的文章,许多例子用Excel、Google Docs就能搞定。当然,正如Rufus Pollock指出的,其实小数据才是真正的革命。(http://blog.okfn.org/2013/04/22/forget-big-data-small-data-is-the-real-revolution/

3. 数据并不是越多肯定越好,很可能最后反而事倍功半,投入很多,所获稀少。有些情况下,数据多产生的结果反而让你不知所措。

结论:数据多少不那么重要,重要的是收集正确的数据,数据质量、清晰的目标、上下文和直觉可能更重要。

HN上的讨论有很多干货:https://news.ycombinator.com/item?id=5696451
评论