引言
本书意在解释我们身在何处,我们从何而来,并且提供当下亟需的指导,以应对眼前的利益和危险。
从因果关系到相关关系的思维变更才是大数据的关键,建立在相关关系分析法基础上的预测才是大数据的核心。社会需要放弃它对因果关系的渴求,而仅需关注相关关系。也就是说只需要知道是什么,而不需要知道为什么。
大数据与云计算是一个问题的两面:一个是问题,一个是解决问题的方法。
大数据时代的经济学、政治学、社会学和许多科学门类都会发生巨大甚至是本质上的变化和发展,进而影响人类的价值体系、知识体系和生活方式。哲学史上争论不休的世界可知论和不可知论将会转变为实证科学中的具体问题。可知性是绝对的,无事无物不可知;不可知性是相对的,是尚未知道的意思。
认为相关重于因果,是某些有代表性的大数据分析手段(譬如机器学习)里面内禀的实用主义的魅影,绝非大数据自身的诉求。放弃对因果性的追求,就是放弃了人类凌驾于计算机之上的智力优势,是人类自身的放纵和堕落。如果未来某一天机器和计算完全接管了这个世界,那么这种放弃就是末日之始。
大数据挖掘能力:以一种前所未有的方式,通过对海量数据进行分析,获得有巨大价值的产品和服务,或深刻的洞见,量变导致质变。物理学和生物学都告诉我们,当我们改变规模时,事物的状态有时也会发生改变。
根据过去的大数据,可以预测未来,指导我们未来的行为。
大数据开启了一次重大的时代转型,但真正的革命并不在于分析数据的机器,而在于数据本身和我们如何运用数据。我们可以从不同的维度去提取有价值的东西。大数据挖掘算法不是大数据研究的核心,而是我们从他人想不到的维度去提取有价值的东西。所以大数据应用比大数据挖掘算法更为重要。
当我们拥有海量即时数据时,绝对的精准不再是我们追求的主要目标。当然,我们也不是完全放弃了精确度,只是不再沉迷于此。适当忽略微观层面上的精确度会让我们在宏观层面拥有更好的洞察力。相关关系也许不能准确地告知我们某件事情为何会发生,但是它会提醒我们这件事情正在发生。在许多情况下,这种提醒的帮助已经足够大了。
第一部分:大数据时代的思维变革
大数据与三个重大的思维转变有关,这三个转变是相互联系和相互作用的。
●首先,要分析与某事物相关的所有数据,而不是依靠分析少量的数据样本。
●其次,我们乐于接受数据的纷繁复杂,而不再追求精确性。
●最后,我们的思想发生了转变,不再探求难以捉摸的因果关系,转而关注事物的相关关系。
传统的分析方式即采样分析的精确性随着采样随机性的增加而大幅提高,但与样本数量的增加关系不大。当人们想了解更深层次的细分领域的情况时,随机采样的方法就不可取了。在宏观领域起作用的方法在微观领域失去了作用。所以,我们现在经常会放弃样本分析这条捷径,选择收集全面而完整的数据(不是绝对意义的全部数据,只是说这是相对所有数据)。我们需要足够的数据处理和存储能力,也需要最先进的分析技术,即采用大数据的方法。
执迷于精确性是信息缺乏时代和模拟时代的产物。在那个信息贫乏的时代,任意一个数据点的测量情况都对结果至关重要。当我们掌握了大量新型数据时,精确性就不那么重要了,我们同样可以掌握事情的发展趋势,而且拥有更大数据量所能带来的商业利益远远超过增加一点精确性,所以通常我们不会再花大力气去提升数据的精确性。要想获得大规模数据带来的好处,混乱应该是一种标准途径,而不应该是竭力避免的。赫兰德总结说:“略有瑕疵的答案并不会伤了商家的胃口,因为他们更看重高频率。”
大的数据库的代表技术Hadoop的输出结果没有关系型数据库输出结果那么精确,它不能用于卫星发射、开具银行账户明细这种精确度要求很高的任务。但是对于不要求极端精确的任务,它就比其他系统运行得快很多,比如说把顾客分群,然后分别进行不同的营销活动。
当数据点以数量级方式增长的时候,我们会观察到许多似是而非的相关关系。毕竟我们还处于考察相关关系的初期,所以这一点需要我们高度重视。
一个东西要出故障,不会是瞬间的,而是慢慢地出问题的。通过收集所有的数据,我们可以预先捕捉到事物要出故障的信号,比方说发动机的嗡嗡声、引擎过热都说明它们可能要出故障了。系统把这些异常情况与正常情况进行对比,就会知道什么地方出了毛病。通过尽早地发现异常,系统可以提醒我们在故障之前更换零件或者修复问题。通过找出一个关联物并监控它,我们就能预测未来。
相关关系分析本身意义重大,同时它也为研究因果关系奠定了基础。通过找出可能相关的事物,我们可以在此基础上进行进一步的因果关系分析,如果存在因果关系的话,我们再进一步找出原因。这种便捷的机制通过严格的实验降低了因果分析的成本。我们也可以从相互联系中找到一些重要的变量,这些变量可以用到验证因果关系的实验中去。
第二部分:大数据时代的商业变革
今天,拥有了数据分析的工具(统计学和算法)以及必需的设备(信息处理器和存储器),我们就可以在更多领域、更快、更大规模地进行数据处理了。在大数据时代,惊喜无处不在
数字化带来了数据化,但是数字化无法取代数据化。数字化是把模拟数据变成计算机可读的数据,和数据化有本质上的不同。
“文化组学”是一个计算机专业词汇,指的就是通过文本的定量分析来揭示人类行为和文化发展的趋势。“现实挖掘”这里指的是通过处理大量来自手机的数据,发现和预测人类行为。“自我量化”是一项由一群健身迷、医学疯子以及技术狂人发起的运动,通过测量身体的每一个部位和生活中的每一件事来让生活更美好——或者至少用量化的方式来获得新知。
不同于物质性的东西,数据的价值不会随着它的使用而减少,而是可以不断地被处理。它的真实价值就像漂浮在海洋中的冰山,第一眼只能看到冰山的一角,而绝大部分都隐藏在表面之下。
数据价值的关键是看似无限的再利用,即它的潜在价值。收集信息固然至关重要,但还远远不够。因为大部分的数据价值在于它的利用,而不是占有本身。
数据的潜在价值有最为常见的创新方式:
1:数据的再利用。系统采用了为某个特定目的而生成的数据,并将其重新用于另一个目的,换言之,数据从其基本用途移动到了二级用途。
2:重组数据。随着大数据的出现,数据的总和比部分更有价值。当我们将多个数据集的总和重组在一起时,重组总和本身的价值也比单个总和更大。
3:可扩展数据。在收集数据时强调扩展性方面使数据即用于基本用途,也进行了大量的二次使用。
4:数据的折旧值。潜在价值的概念表明,组织机构应收集尽可能多的使用数据并保存尽可能长的时间。同时也应当与第三方分享数据,前提是要保留所谓的”延展性”权利。这样一来,由数据再利用而产生的任何商业价值,原始数据拥有者都能从中分到一杯羹。数据收集者和拥有无法想像数据再利用的所有可能方式,这一点几乎是不言自明的。
5:数据废气。“数据废气”用来描述人们在网上留下的数字轨迹的艺术词汇出现了,它是用户在线交互的副产品,包括浏览了哪些页面、停留了多久、鼠标光标停留的位置、输入了什么信息等。许多公司因此对系统进行了设计,使自己能够得到数据废气并循环利用,以改善现有的服务或开发新服务。
6:开放数据。政府才是大规模信息的原始采集者,并且还在与私营企业竞争他们所控制的大量数据。政府与私营企业数据持有人之间的主要区别就是政府可以强迫人们为他们提供信息,而不必加以说服或支付报酬。”开放政府数据”成为当前的一大难题。
根据所提供价值的不同来源,分别出现了三种大数据公司。这三种来源是指:数据本身、技能与思维。大数据让处于行业两端的公司受益良多,而中等规模的公司要么向两端转换,要么破产。传统行业最终都会转变为大数据行业,无论是金融服务业、医药行业还是制造业。
大数据思维,是指一种意识,认为公开的数据一旦处理得当就能为千百万人急需解决的问题提供答案。
数学和统计学知识,甚至是有少许编程和网络科学的知识将会成为现代工厂的基础,但不只是专业技能的深度很重要,大数据的广度也变得很重要。要想解决一个生物难题,或许与天体物理学家或者数据视图设计师联系就可以实现。
###第三部分:大数据时代的管理变革
过于依赖数据,而数据远远没有我们所想的那么可靠。只要得到了合理的利用,而不单纯只是为了数据而数据,大数据就会变成强大的武器。
现在大多数人都认为大数据是一个技术问题,应侧重于硬件或软件,而我们认为应当更多地考虑当数据说话时会发生什么。大数据提供的不是最终答案,只是参考答案,为我们提供暂时的帮助,以便等待更好的方法和答案出现。这也提醒我们在使用这个工具的时候,应当怀有谦恭之心,铭记人性之本。
推荐书籍
1.《证析》、《大数据》、《个性化:商业的未来》