大数据是时下最时髦话题,技术专家、企业家为人们描绘了大数据下的美好生活。近期,美国学界和媒体有关“谷歌流感趋势”的讨论,又把大数据推上了风口浪尖。
“谷歌流感趋势”是谷歌公司多年前推出的一款预测流感的产品。该公司的工程师认为,搜索流感信息的人数与实际患病人数之间存在密切关联。通过汇总用户的相关搜索记录,“谷歌流感趋势”可以预测出世界上不同国家和地区的流感传播情况。2009年,甲型H1N1流感暴发的几周前,“谷歌流感趋势”成功预测了流感在美国境内的传播,其分析结果甚至具体到特定的地区和州,并且非常及时,令公共卫生官员备感震惊。因为传统上,美国疾病控制中心要在流感暴发一两周之后才可以做到这些,“谷歌流感趋势”的社会意义不言而喻。
然而好景不长,2013年初,英国《自然》杂志报道了一则坏消息:在最近一次流感暴发中,“谷歌流感趋势”不起作用了!这个工具曾经可靠地运作了几个冬天,在海量数据分析和号称“不需要理论模型”的条件下,提供了快速、准确的流感暴发趋势。而这一次,谷歌产品显示的数据,与美国疾病控制中心汇总后的结果比起来,夸大了几乎一倍!
英国《金融时报》专栏作家提姆·哈福德指出,很多人认为,大数据可以完全取代传统统计方法,这种观点十分傲慢。科学技术发展到今天,人们有能力获得比几十年前多出许多的信息,知道的多似乎比知道的少要好,但是知道的多就等于知道的真吗?从茫茫“数据海洋”中得到真相,并非易事。
大数据纷繁多样,优劣掺杂,随着数据规模扩大,统计结果的真实性、准确性可能大打折扣。《大数据时代》一书的作者也不讳言,大数据本身探寻的是一种趋势,而非精准性,大数据时代需要学会接受数据的不完美。换言之,不能因为不精确而放弃大数据的应用和发展,若要无限接近统计结果的真,必须让大数据与精细的传统统计方法互补,而非两者相互替代。
对科学界来讲,大数据并不是一个全新的概念。与自然科学不同,社会化下的信息技术,让大数据进入了社会层面,被赋予更多新的含义和期待。量子基金的乔治·索罗斯提出过一个“自反性”概念,认为社会系统的参与者是有思想的,在这样的环境中,不仅观察,就连思想和信念都会影响到我们研究的对象,从而影响我们得出的结论。索罗斯的这一概念,对于大数据研究和应用也同样适用。
尽管日益成为大数据的享用者和制造者,人们还是应该保持主动性,不能被数据牵着鼻子走。
《 人民日报 》( 2014年05月13日 21 版)