返回 登录
0

再议大数据的本质特征

1、细粒度多维度:要微观干预能力不要宏观统筹能力

大数据的应用价值不在于它“大”,而在于其细粒度多维度信息的价值,即微观干预能力。数据的细粒度多维度往往代表了一个事物的微观多种属性,代表了个体看待一个事物的不同角度,是大数据的一个本质特征之一。

例如,将市场交易信息汇总成实时数据供宏观政策决策不是大数据的价值(抽样也可实现),根据个人交易记录和行为特征降低在线交易的撮合成本是大数据的价值(更高效率的微观干预)。

再例如,百度曾经发布过一个比较有意思的统计结果:《中国十大“吃货”省市排行榜》。百度在没有做任何问卷调查和深入研究的情况下,只是从“百度知道”的7700万条与吃有关的问题中,挖掘出一些结论,反而比很多的学术研究更能反映问题。百度知道的数据维度很多、粒度很细,它们不仅涉及食物的做法、吃法、成分、营养价值、价格、问题来源地、时间等显性维度,而且还蕴藏着很多别人不太注意的隐含信息,例如提问或回答者的终端设备、浏览器类型等。虽然这些信息看上去“杂乱无章”,但实际上正是这些杂乱无章的数据将原来看似无关的维度联系起来了。经过对这些信息的挖掘、加工和整理,就能得到很有意义的规律统计。而且,这些信息中能够挖掘出的大家感兴趣的信息,远比大家想象的要多。

2、完备性:要全体不要抽样

大数据的完备性,或者说全面性,代表了大数据的另外一个本质特征,而且在很多问题场景下是非常有效的。

例如,Google的机器翻译系统就是利用了大数据的完备性。它通过数据学到了不同语言之间很长的句子成分的对应,然后直接把一种语言翻译成另一类,前提条件就是使用的数据必须是比较全面地覆盖中文、英文,以及其他的各种语言的所有句子,然后通过机器学习,获得两种语言之间各种说法的翻译方法,也就是说具备两种语言之间翻译的完备性。我们知道Google是目前互联网数据的最大拥有者,随着人类活动与互联网的密不可分,Google所能积累的大数据将会越来越晚辈,它的机器翻译系统也就自然越来越准确了。

另一方面,传统的调查方式都是抽样的,抽取有限的样本进行统计,从而得出整体的趋势来,之所以选择抽样而不是统计全部数据,只有一个原因,那就是全部数据的数量太多了,根本没法操作。

抽样的核心原则就是随机性,不随机就不能反映整体趋势性。例如搞一个保暖内衣的调查,找了一群精壮的武警战士试穿,战士们穿上了普遍反映不冷,但这并不能说明内衣的保暖效果有多好。

抽样随机性的道理谁都知道,但要做到随机性其实是很难的。例如电视收视率调查,要从不同阶层随机找被调查人,但高学历高收入的大忙人们普遍拒绝被调查,他们根本就不会为几条毛巾赠品而耽误时间,愿意接受调查的多是整天闲得无聊的低收入者,电视收视率的调查结果就可想而知。

互联网、移动互联网、以及物联网为大数据的采集带来的新手段,云计算为处理大数据带来了新方法。还以电视收视率调查为例,互联网电视普及后,每一部电视正在收看什么节目的信息会毫无遗漏地发送到调查中心。这就是大数据的第二个特点:要全体不要抽样。对全部数据进行统计分析,其结果当然会更加准确。

3、关联性:相关关系比因果关系更重要

大数据时代,数据之间的相关性在某种程度上取代原来的因果关系,让我们从大量的数据中直接找到答案,即使不知道原因,是大数据的本质特征之一。

例如,老王开了个包子铺,有时做少了不够卖,有时做多了没卖完,两头都是损失。老王琢磨着买包子的都是街坊,他们买包子是有规律的,例如老张只在周六买,因为闺女周末会来看他,而且闺女就爱吃包子。于是老王每卖一次就记次账,谁在哪天买了几笼包子,并试图找出每个街坊的买包子规律。

数据虽然越记越多,但老王啥规律也没找出来,即使是老张也都没准,好几个周六都没来买,因为他闺女有事没来。有个人给老王支招,你甭记顾客,就记每天卖了多少笼就行,这个法子明显简单有效,很容易就看出了周末比平时会多卖两笼的规律。

这个例子虽然简单,却道出了大数据的一个重要特点:相关关系比因果关系更重要。周末与买包子人多就是相关关系,但为什么多呢?是因为老张闺女这样的周六来吃包子的人多?还是周末大家都不愿意做饭?对这些可能性不必探究,因为即使探究往往也搞不清楚,只要获得了周末买包子的人多,能正确地指导老王在周末时多包上两笼,这就行了。

要相关不要因果,这是大数据思维的重要变革,以前数据处理的目标更多是追求对因果性的寻找,或是对猜测的因果性的验证,人们总是习惯性地找出个原因,然后心里才能踏实,而这个原因是否是真实的,却往往是无法核实的,而虚假原因对面向未来的决策来说是有害无益的。承认很多事情是没有原因的,这是人类思维方式的一个重大进步。

4、不确定性:要效率不要精确

大数据的不确定性最根本的原因是我们的这个世界是不确定的,当然也有技术的不成熟、人为的失误等等。总的来说,大数据往往是不准确,并充满噪音的。

俗话说的好,萝卜快了不洗泥,既然我们要的是全体数据,自然会夹杂进来一些错误的数据,这是难以避免的。我们传统的数据分析的思路是“宁缺勿烂”,因为传统小数据分析的数据量本身并不大,任何一个错误数据都有可能对结果产生相对较大的负面影响,对错误数据必须花大精力去清除,这是小数据时代必须坚持的原则。

大数据时代的原则就变了,变成了:要效率不要精确。并不是说精确不好,而是因为在大数据时代是做不到的,如果继续把排除错误数据作为重要工作,那大数据分析就进行不下去了。更重要的是,大数据分析的目标在于预测和干预,而不在于追溯以前发生过的事件的真相。

5、隐私威胁:大数据时代的裸奔

大数据时代使得每个人都在裸奔。

先看个正面的例子。你走在大街上,基站的智能天线以一道极窄的波束指向你的手机,从而获得你的方位角,通过开机瞬时的上百次功率调整和探询,换算后就能获得你与基站的距离,两个信息结合就精准地确定了你的位置。根据你的搜索记录,互联网早已知道了你的爱好,然后手机“滴”地一声通知你,你前方10米处右侧有您最喜爱吃的咸豆腐脑店,正在八折酬宾中,“滴”地又来了一声,老板已得知您是咸豆腐脑的忠实拥护者,特别给您打五折,来尝一碗呗。

再看个反面的例子。我走在大街上,手机“滴”地一声,通知我前面有个同志聚会,系统通过我以前的搜索和看过的片子早已确定了我的性取向,并将我的信息经过精确配对发送给了好多基友,但我并不想出柜,这可咋整啊?

这个反面例子道出了大数据时代我们都面临的一个重大问题,那就是隐私权问题。美国某机构曾做过一个实验,根据网友的搜索记录来筛定目标,虽然信息已经进行了模糊,还是有不愿意出柜的基友被筛出来了,基友的妈妈非常震惊和生气,将该机构告上了法庭。

微博上常有维权人士声称电话被政府监听了,因为手机语音出现了不正常的声音,其实这是他们多心了,他们的电信知识还停留在用鳄鱼夹搭电话线窃听的阶段。并不是说政府不会窃听,而是说如果政府窃听你的电话,你是绝对察觉不出来的,多手段全方面的监控手段早已超出了外行的想象力。即使是技术内行,例如贩卖国家机密的间谍被收网后往往会马上崩溃,他所有的电话短信邮件出行会面谈话都有清清楚楚的铁证。所以记得不要做坏事哦,人在做,数在看。

犯罪成本太高了,将来无死角的摄像监控头会记录下一切,即使你犯罪时蒙着面,根据前两天你没蒙脸踩点时的录像,通过姿态步态的匹配算法就能把你筛选出来。现在公安系统有句话“只要上手段,没有查不出来的”,上手段就是指包括摄像头监控、手机监控、网络监控等综合手段。现在的基础设施还不完善,等将来所有的路灯杆都变成了多传感监控器,加上强大的大数据分析能力,你还想咋藏?

更有意思的是,将来的犯罪逮捕会变成事前,有天你啥事没做睡在床上就被逮捕了(虚构的,实际法律上不支持),警察通告你:根据警方对你所有信息的大数据分析,显示你已经知道了老婆出轨之事,根据以往犯罪案例及你本人性格的大数据分析结果,你有76.3%的概率会在本周内对老婆进行轻伤以上程度的犯罪,超过了法律规定的60%轻伤以上犯罪概率必须入监的标准,特羁押你一个月,根据大数据分析结果,放出来后的你仍然犯罪的概率会降低到法律规定可以释放的5%以下。听着很安全吧?但是不是也感到了毛骨悚然?

在大数据时代,我们每个人都是赤条条地在信息社会中裸奔,真的是光着屁股一丝不挂地那种裸奔,难到没有人意识到这点吗?当然不是,英国等西方国家早就对街道监控摄像头展开了全社会的大讨论,安全与隐私该如何权衡?随着近年来随着恐怖主义的盛行,安全显然更重要了,公民们很无奈地同意把更多的隐私权交给了政府,以获得更大的安全感。

必须对公民隐私信息进行分级制的严管,公安部门掌握着每个人的开房信息,如果不涉及到重大违法犯罪的话,绝不能滥加使用,更不能透露给当事人的配偶,否则社会就会大乱。掌握信息和利用信息的应是独立的两个机构,如果让利用信息的公安部分掌管公民所有隐私信息,那就会成为一个人人自危的恐怖国家。

国际上也一样。近几年,瑞士银行开始准备向其他国家交出外国人账户的详细资料,很多国家都予以反对,包括中国,希望瑞士银行保护隐私。同时,有人又提出不同看法,认为还是公布的好,这样可以使得部分犯罪分子以及贪官暴露于天下。这样的逻辑谬论不少见。实际上,不论是什么人,不论其职位,无论其身份,都应该受到隐私保护,都应该享有私人的权利。

我们现在该如何做好迎接大数据时代的准备?应该培养公权机构绝不能泄露公民隐私的社会舆论。如果放任这种公权力的滥用,我们每个人将来都会成为光屁股裸奔的人,光不光屁股则取决于掌握公民信息的权力人士的一念之差。对掌握公民隐私信息的公权力的严格控制,应该成为全社会的共识。

温故而知新~ 图片描述

评论