周六. 8 月 9th, 2025

原标题:《大数据时代》之数据大变革

导读人简介

胡曦玮,管理学博士,图书情报与档案管理专业,馆员。目前在查新与知识产权信息服务部,从事知识产权信息服务工作。热爱生活,更爱一张软沙发,一杯热茶,一本书或一部电影,一个人独赏。把时间留给自己,把自己交给岁月。

导语

《大数据时代》被诸多国内外专家、学者、媒体人公认为最好的大数据著作。作者列举了大数据给商业、管理以及人们的思维模式等方面带来的巨大变革,内容通俗易懂,对于非专业人士也容易理解。本书视野宏大、观点明确、案例详实,内容绝非是跟风媒体的简单罗列和浮于表面的理论论述,而是以作者自己丰富的知识和驾驭宏大问题的写作能力为基础,在案例中抽象出一般性的观点和结论。也许你并不认同作者的所有观点,但通过阅读本书必然会引发你自己一些实实在在的思考。

《大数据时代》的现实意义在于让我们重新审视数据的价值以及对数据的分析思路。大数据是当今社会众多领域中的重要技术和概念之一,代表着未来的发展方向。在日常生活中,我们每个人都在应用大数据的成果,这些同样也是大数据中的一个部分。因此,阅读本书可以让每个人都对大数据有所了解,包括但不局限于大数据的产业生态环境、数据安全隐私以及信息公正公开等问题。

变革——大数据时代的思维

作者站在理论的制高点上,条理清晰地阐述了大数据给思维、商业和管理上带来的变革,分析了大数据时代的典型商业模式,以及大数据时代对于个人隐私保护、公共安全问题提出的挑战。在讲述这些的时候,作者避免了使用大量专业术语,纵观全书,遣词造句通俗易懂,同时,作者列举了大量的实例,贴近时代生活,能够引起读者的共鸣。

其次,作者认为在大数据时代,不能一味地追求数据的精确性,而要适应数据的混杂性,否则将有“95%的数据都无法被利用”,“只有接受不精确性,才能打开一扇从未涉足的世界的窗户”。作者以测量的精确性举例,由经典物理对测量精度的追求到量子力学中的“测不准”,说明了“在不断涌现的新情况里,允许不精确的出现已经成为一个新的亮点,因为放松了容错的标准,人们掌握的数据也多了起来,这样就不是大量数据优于少量数据那么简单了,而是大量数据创造更好的结果”。同时,随着数据的增加,还要与各种各样的混乱做斗争,简单说,混乱包括数据的错误、格式的不一致等问题。但正如作者所说,“为了规模的扩大,我们接受适量错误的存在,当然数据不可能完全错误,但是为了了解大致的发展趋势,我们愿意对精确性做出一些让步”。“有时候得到2加2约等于3.9的结果,也很不错了”。在此基础上,作者进一步分析了大数据优于算法的观点。以自然语言处理为例,作者认为谷歌的翻译之所以更好,并不是因为它拥有一个更好的算法机制,而是因为谷歌翻译增加了很多各种各样的数据,而谷歌之所以能比其他系统多利用成千上万的数据,是因为它接受了有错误的数据。2006年,谷歌发布的上万亿条的语料库,就是来自于互联网的一些废弃内容。而正是这些“训练集”,可以正确地推算出英语词汇搭配在一起的可能性。与此同时,大量混乱数据也催生了Hadoop、MapReduce等分布系统架构的出现。

最后,第三个颠覆传统思维认知的变革是:在大数据时代,了解数据之间的相关性,胜于对因果关系的探索,即“是什么”比“为什么”重要。与传统因果分析存在很大差异,作者认为在大数据时代“知道‘是什么’就够了,没有必要知道‘为什么’,我们不必非得知道现象背后的原因,而是要让数据自己‘发声’”。正如亚马逊平台的商品推荐系统梳理出了很多有趣的相关关系,但不知道背后的原因;它并没有必要把顾客与其他顾客进行对比,需要做的只是找到产品之间本身的关联性。“如果系统运作良好,亚马逊应该只推荐你一本书,而这本书就是你将要买的下一本书”。这在当前的互联网经济中显得尤为重要,知道人们为什么对这些信息感兴趣可能是有用的,但是知道“是什么”可以创造点击率,这种洞察力足以重塑很多行业,不仅仅只是电子商务。通过应用相关关系,可以比以前更容易、更快捷、更清楚地分析事物。作者给出了沃尔玛超市的一个有趣案例:“沃尔玛公司注意到,每当在季节性飓风来临之前,不仅手电筒销售量增加了,而且蛋挞的销量也增加了。因此,当季节性风暴来临时,沃尔玛会把库存的蛋挞放在靠近飓风用品的位置,以方便行色匆匆的顾客从而增加销量”。而如今,大数据的发展为人们提供了更多的数据和更好的关联算法,以数据驱动的关于大数据的相关关系分析法,取代了基于假想的易出错的方法,大数据的相关关系分析法更准确、更快速、而且不易受偏见的影响。建立在相关关系分析法基础上的预测则是大数据的核心。如银行、保险公司常常收集用户信息对其征信和身体状况进行预测分析,桥梁和建筑物上也被安装了传感器来检测磨损程度。大数据把数学算法运用到海量的数据上来预测事情发生的可能性,这些预测系统能够成功的关键在于它们是建立在海量的数据基础上。同时,随着系统接收到的数据越来越多,通过记录找到最好的预测与模型,可以对系统进行改进。

创新和风险

——数据时代的商业和隐忧

作者认为大数据时代是一个一切皆可“量化”的时代,并将其称为“数据化”——是指一种把现象转变为可制表分析的量化形式的过程。图书文字、位置数据、社交软件留言等都可以变成信息。对此,作者依然通过举例为读者娓娓道来。当文字变成数据,它就大显神通了——人可以用之阅读,机器也可以用之分析。例如谷歌就精明地利用这些数据化了的文本来改进它的机器翻译服务。相对的,亚马逊也拥有数据化的书籍,但却不曾挖掘数据化之后的附加值,亚马逊的Kindle图书是一种数据化的数据,它把眼光聚焦于用来阅读的书籍内容上,而不是分析数据化文本上。因此,作者认为亚马逊深谙数据化内容的意义,而谷歌触及了数据化内容的价值。在智能手机普及的当下,定位是时刻都可能生成信息,iPhone手机本身就是一个移动间谍,一直在用户不知情的情况下收集位置和无线数据然后传回苹果公司,当然谷歌和微软的手机也在收集这一类数据。第三方也开始利用这些数据来提供新的服务,从个人层面上来说,根据他所居住的地点和他要去的地点的预测数据,可以为用户提供定制,更进一步,将这些信息汇集起来可能会揭示事情的发展趋势。比方说,公司可以利用大量的位置数据预测交通情况,而这些是通过高速公路上的手机而不是汽车的数量和移动速度预测出来的。而位置数据在商业以外的用途或许才是最重要的,“现实挖掘”研究通过处理大量来自手机的数据,发现和预测人类行为。可以说,位置信息一被数据化,新的用途就如雨后春笋般涌现出来,而新价值也会随之不断催生。同时,人们在社交软件上的留言也是一种有价值的信息,Twitter公司实现了用户想法、情绪和沟通的数据化,还有许多公司对微博做了句法分析,有时还会使用一项叫做情感分析的技术,以获得顾客反馈意见的汇总或对营销活动的效果进行判断,或是用来预测电影的票房、甚至是股票投资的信号。

作者在分析了大数据所带来的变革和创新之后,也敏锐地发现了背后的隐忧,即商业领域广泛收集运用的大数据会对公众的个人隐私产生威胁。而且,在大数据时代,不管是告知与许可、模糊化还是匿名化,这三大隐私保护策略都失效了。如今很多用户都觉得自己的隐私已经受到了威胁。同时,大数据也加剧了一个旧威胁:过于依赖数据,而数据远远没有我们所想的那么可靠。那些尝到大数据益处的人,可能会把大数据运用到它不合适的领域,而且可能会过分膨胀人们对大数据分析结果的信赖。随着大数据预测的改进,人们会越来越想从大数据中掘金,最终会导致盲目现象出现。对此,作者认为一种可行的措施是将责任转移到数据使用者身上,因为数据使用者是数据二级应用的最大受益者,所以理所应当应该让他们对自己的行为负责。

限于篇幅较长,本文仅摘录了部分内容,其他章节以及参考文献等内容,请扫描下方二维码查看。

END

部分图片来源于网络

供稿丨文化与特藏部 刘珊珊

点分享

点点赞

点在看返回搜狐,查看更多

责任编辑:

Avatar photo

作者 UU 13723417500

友情提示:现在网络诈骗很多,做跨境电商小心被骗。此号发布内容皆为转载自其它媒体或企业宣传文章,相关信息仅为传递更多信息之目的,不代表本网观点,亦不代表本网站赞同其观点或证实其内容的真实性。---无意冒犯,如有侵权请联系13723417500删除!

声明本文由该作者发布,如有侵权请联系删除。内容不代表本平台立场!

发表回复

服务平台
跨境人脉通
选品平台
U选Market
展会&沙龙
群通天下