大数据这个概念,是在12年火起来的。概念火了这么久,但是直到现在,不仅很多外行人不清楚大数据究竟是什么,甚至我接触过的很多内行人,对这个概念的本质也是一窍不通。
舍恩伯格在《大数据时代》这本书里总结的大数据的三个特征,业内人早已耳熟能详,但也争议颇多。但实际上,我觉得这三个看似不起眼的特征的背后,蕴含着对大数据深刻的理解和洞察。
那些贬低、或否定这三个特征的人,我想其眼界还是有待提高。
我们如果站在人类科学史和思维方法论的宏观视角来看待大数据,那么你会发现这三条简洁而优美的特征总结背后的深刻智慧。
所以今天我主要想从大数据的这三个特征入手,做一个大数据的科普,并阐述一些我个人的理解和看法。
一、不是随机样本,而是全体数据。
在过去,一方面由于技术、经济、人力等多个层面的限制,我们探索客观规律的时候,主要是依靠抽样数据、片面数据、或片面数据。所以就会导致有很多小概率事件覆盖不到,容易出现黑天鹅事件。
甚至有些时候我们都不是基于实证检验,而只是凭借经验,假设,和价值观,就对客观规律做出了总结。
这就导致过去很多时候,人类对于客观世界的认知,是肤浅的、表面的、错误的。
另一方面,过去我们对于客观规律的探究,出发点和探究的维度都是较为“狭隘”的。
比如我们想分析某商业机构的发展前景,可能过去我们的分析素材只集中在和商业、宏观政策等这些与我们的分析对象有着潜在的、或较为明显的因果关系的相关事物上。
但是大数据的分析对象会更广、更杂、更全面。可能对于这一商业机构的分析素材还会包括天气变化、90后消费倾向、某市人们点外卖的习惯等等这些“看上去”可能和我们的分析目的没有什么联系的“无关因素”。
但是通过大数据的分析,我们会发现很多我们无法马上理解和接受的、两种事物之间的相关关系。比如:男性顾客买尿布的时候喜欢顺带买啤酒,通过分析词汇检索可以预测到流感传播,咖啡和信用卡或房贷有强相关关系等。
随着信息技术的发展,我们获取数据变得更便捷、渠道更多、也更迅速、更具时效性,来自互联网的海量数据可以为我们所用。
因此我们的某个对象的分析不再是抽样调查,而是能覆盖这个对象全体,可以全方位、多维度的对其进行分析。
由此既消除了小概率事件的不确定性,又能够在对事物的分析中发现更多的可能性和相关性。
总体而言,这条特征反映出来的是:大数据的『量变』引发了人类进行分析和思考的核心层面上的『质变』。
在更专业的层面上,大数据的简单算法比小数据的复杂算法更有效,随着数据量的提升,我们获得的结论和答案的精准度也会逐渐提升。
二、不是精确性,而是混杂性。
以最通俗的语言来说,就是在庞大的数据体量面前,每一个小的数据的精确性可以变得不是那么的重要,因为庞大的数量可以消除或极大地稀释那些不准确的部分。
比如我们发100份调查问卷,里面如果有5个人是胡乱回答的,那可能就会极大地影响我们的调查结果;
但如果我们发了10万份调查问卷,那么即便是有50个人可以捣乱,那也不会对最终结果有太大的影响。
同时,如我们在前面所提到的,看上去混杂无章的数据,可以将原来看似无关的维度联系起来。
我们对这些不同维度的信息进行挖掘、加 工和整理,就能够获得有价值的统计规律。
因此,在这个时候,数据的混杂性反而成为了大数据的优势,通过对不同维度的数据的分析,使这些维度开始出现相互交叉,数据之间的关联性获得了极大地增强,我们也因此能够获得更多的新的规律。
三、不是因果关系,而是相关关系。
这个特征应该是最为人所诟病的了。甚至《大数据时代》这本书的译者周涛在这本书的“序”中就直接表明了对这一点的不认可。
我个人也认为,作者在书中对“因果关系”的否定态度确实太过狂妄了。但事实上,因果关系和相关关系其实本质上并没有什么区别。
“相关关系只是还没有被理解的、复杂的因果关系。”
因果律是最基本、最底层的逻辑规律。但只是过去人们习惯了对因果律的“简化”理解——人们绝大多数时候提到因果关系其实都只是在说“单因果关系”。
问题是世界上万事万物之间的联系是很复杂的,现实情况下的因果关系通常都是“多因果关系”,也就是事物之间的相互作用是多因多果的。
我们无法分析清楚复杂的、非线性的因果关系,故而将这些多因果关系称之为是“相关关系”。
大数据提倡关注“相关关系”,关注“是什么”而不是“为什么”,这并非是对『因果关系』的否定,反而是对客观世界真相的承认与接纳——承认世界是复杂的,联系紧密的。
同时也是站在一个更实用的立场上,专注于具体问题的解决或做出更优的决策。
如果我们发现在门口种一颗柳树,让一只狗绕着这棵树跑三圈,我们再狠狠地羞辱这只狗,就能够增加这家公司的利润,那么对这家公司来说,放在第一位的是赶紧这样去做、并开更多的店复制这种做法,第二位的才是要探究这种做法之所以起效的原因。
大数据并不是说因果关系不重要,而是说实用性才是最重要的,因果关系可以以后、或者交给别人去探究。
最后如果总结来说的话,其实大数据无非就是体量很大的数据集。但关键在于在这背后的:人类数据处理能力的提升、数据量的累积,分析方法的发展、思维的转变等等,这些才是『大数据』这个词的真正含义。
现在大数据这个词已经不“火”了。但我觉得大数据的发展和应用一定会越来越好、越来越广的。人工智能,金融交易,医疗研发等这些前沿领域无不需要大数据作为助力和支撑。
过去大数据作为一个很火的“概念”,反而令很多人忽略了它真正的价值。
大数据的发展和应用是未来的一个『趋势』。『趋势』都是由人类的思维方式、社会结构、科技发展这三者交互作用而催生的。
而大数据正是科技发展量变累积、和人类思维方法论革新交汇作用下的产物。
期待看到大数据为世界产生更多的价值。
