周六. 11 月 29th, 2025

大数据这个概念,是在12年火起来的。概念火了这么久,但是直到现在,不仅很多外行人不清楚大数据究竟是什么,甚至我接触过的很多内行人,对这个概念的本质也是一窍不通。

舍恩伯格在《大数据时代》这本书里总结的大数据的三个特征,业内人早已耳熟能详,但也争议颇多。但实际上,我觉得这三个看似不起眼的特征的背后,蕴含着对大数据深刻的理解和洞察。

那些贬低、或否定这三个特征的人,我想其眼界还是有待提高。

我们如果站在人类科学史和思维方法论的宏观视角来看待大数据,那么你会发现这三条简洁而优美的特征总结背后的深刻智慧。

所以今天我主要想从大数据的这三个特征入手,做一个大数据的科普,并阐述一些我个人的理解和看法。

一、不是随机样本,而是全体数据。

在过去,一方面由于技术、经济、人力等多个层面的限制,我们探索客观规律的时候,主要是依靠抽样数据、片面数据、或片面数据。所以就会导致有很多小概率事件覆盖不到,容易出现黑天鹅事件

甚至有些时候我们都不是基于实证检验,而只是凭借经验,假设,和价值观,就对客观规律做出了总结。

这就导致过去很多时候,人类对于客观世界的认知,是肤浅的、表面的、错误的。

另一方面,过去我们对于客观规律的探究,出发点和探究的维度都是较为“狭隘”的。

比如我们想分析某商业机构的发展前景,可能过去我们的分析素材只集中在和商业、宏观政策等这些与我们的分析对象有着潜在的、或较为明显的因果关系的相关事物上。

但是大数据的分析对象会更广、更杂、更全面。可能对于这一商业机构的分析素材还会包括天气变化、90后消费倾向、某市人们点外卖的习惯等等这些“看上去”可能和我们的分析目的没有什么联系的“无关因素”。

但是通过大数据的分析,我们会发现很多我们无法马上理解和接受的、两种事物之间的相关关系。比如:男性顾客买尿布的时候喜欢顺带买啤酒,通过分析词汇检索可以预测到流感传播,咖啡和信用卡或房贷有强相关关系等。

随着信息技术的发展,我们获取数据变得更便捷、渠道更多、也更迅速、更具时效性,来自互联网的海量数据可以为我们所用。

因此我们的某个对象的分析不再是抽样调查,而是能覆盖这个对象全体,可以全方位、多维度的对其进行分析。

由此既消除了小概率事件的不确定性,又能够在对事物的分析中发现更多的可能性和相关性。

总体而言,这条特征反映出来的是:大数据的『量变』引发了人类进行分析和思考的核心层面上的『质变』。

在更专业的层面上,大数据的简单算法比小数据的复杂算法更有效,随着数据量的提升,我们获得的结论和答案的精准度也会逐渐提升。

二、不是精确性,而是混杂性。

以最通俗的语言来说,就是在庞大的数据体量面前,每一个小的数据的精确性可以变得不是那么的重要,因为庞大的数量可以消除或极大地稀释那些不准确的部分。

比如我们发100份调查问卷,里面如果有5个人是胡乱回答的,那可能就会极大地影响我们的调查结果;

但如果我们发了10万份调查问卷,那么即便是有50个人可以捣乱,那也不会对最终结果有太大的影响。

同时,如我们在前面所提到的,看上去混杂无章的数据,可以将原来看似无关的维度联系起来。

我们对这些不同维度的信息进行挖掘、加 工和整理,就能够获得有价值的统计规律。

因此,在这个时候,数据的混杂性反而成为了大数据的优势,通过对不同维度的数据的分析,使这些维度开始出现相互交叉,数据之间的关联性获得了极大地增强,我们也因此能够获得更多的新的规律。

三、不是因果关系,而是相关关系

这个特征应该是最为人所诟病的了。甚至《大数据时代》这本书的译者周涛在这本书的“序”中就直接表明了对这一点的不认可。

我个人也认为,作者在书中对“因果关系”的否定态度确实太过狂妄了。但事实上,因果关系和相关关系其实本质上并没有什么区别。

“相关关系只是还没有被理解的、复杂的因果关系。”

因果律是最基本、最底层的逻辑规律。但只是过去人们习惯了对因果律的“简化”理解——人们绝大多数时候提到因果关系其实都只是在说“单因果关系”。

问题是世界上万事万物之间的联系是很复杂的,现实情况下的因果关系通常都是“多因果关系”,也就是事物之间的相互作用是多因多果的。

我们无法分析清楚复杂的、非线性的因果关系,故而将这些多因果关系称之为是“相关关系”。

大数据提倡关注“相关关系”,关注“是什么”而不是“为什么”,这并非是对『因果关系』的否定,反而是对客观世界真相的承认与接纳——承认世界是复杂的,联系紧密的。

同时也是站在一个更实用的立场上,专注于具体问题的解决或做出更优的决策。

如果我们发现在门口种一颗柳树,让一只狗绕着这棵树跑三圈,我们再狠狠地羞辱这只狗,就能够增加这家公司的利润,那么对这家公司来说,放在第一位的是赶紧这样去做、并开更多的店复制这种做法,第二位的才是要探究这种做法之所以起效的原因。

大数据并不是说因果关系不重要,而是说实用性才是最重要的,因果关系可以以后、或者交给别人去探究。

最后如果总结来说的话,其实大数据无非就是体量很大的数据集。但关键在于在这背后的:人类数据处理能力的提升、数据量的累积,分析方法的发展、思维的转变等等,这些才是『大数据』这个词的真正含义。

现在大数据这个词已经不“火”了。但我觉得大数据的发展和应用一定会越来越好、越来越广的。人工智能,金融交易,医疗研发等这些前沿领域无不需要大数据作为助力和支撑。

过去大数据作为一个很火的“概念”,反而令很多人忽略了它真正的价值。

大数据的发展和应用是未来的一个『趋势』。『趋势』都是由人类的思维方式、社会结构、科技发展这三者交互作用而催生的。

而大数据正是科技发展量变累积、和人类思维方法论革新交汇作用下的产物。

期待看到大数据为世界产生更多的价值。

Avatar photo

作者 UU 13723417500

友情提示:现在网络诈骗很多,做跨境电商小心被骗。此号发布内容皆为转载自其它媒体或企业宣传文章,相关信息仅为传递更多信息之目的,不代表本网观点,亦不代表本网站赞同其观点或证实其内容的真实性。---无意冒犯,如有侵权请联系13723417500删除!

声明本文由该作者发布,如有侵权请联系删除。内容不代表本平台立场!

发表回复

服务平台
跨境人脉通
选品平台
U选Market
展会&沙龙
群通天下