什么时候人们会说真话呢?前谷歌数据科学家?Seth Stephens-David- owitz在他的新节《人人都在说谎,太数据、新数据以及互联网暴露的真实你我》里提供的答案是:搜索引擎。
谁出卖了你的“性”生活
Seth说,不可与人言的苦闷、憋屈或者疑问都可以毫无保留地写进搜索框,来寻找答案。人们觉得只需要关机之前,清理一下缓存,就真是“神不知、鬼不觉”了,而事实上,搜索引擎记住了这一切。
比如在一项关于美国成年人性生活的社会学调研中,社会学家根据问卷发现,女性提供的性生活次数和使用的避孕套数量,是一年要用掉11亿个避孕套;而男性提供的数字,则要用掉16亿个避孕套。那么究竟哪个数字比较准确呢?根据尼尔森的调查显示,美国一年出售的避孕套数量在6亿个,远远少于男性和女性提供的数字。
Seth通过谷歌的搜索数据不仅佐证了尼尔森的数据,而且进一步发现了社会学家通过调研根本没有发现的问题:美国人的婚姻中存在的最大问题是无性婚姻。根据谷歌的数据,捜索“无性婚姻”的人数比搜索“不幸福婚姻的人数多了3倍半,是“无爱婚姻”的8倍!一个小小的社会学调研,得出的结论和实际情况都能谬之千里,更何况是那些更重要的数据。
可以打败高盛的大数据公司
每个月特定的一个周五,都是包括高盛在内的华尔街各大金融机构最为忙碌的时间点。大部分人早上7点就会到公司,忐忑地等待着一个数字在彭博终端上蹦出来,他们好第一时间进行市场操作。这个数字就是每个月的失业率。所有的国家财政政策、金融政策等都会根据这顿字进行调整。
但是因为失业率的收集方法很古老,而且还有时延,所以往往是就算这个月情况有所好转,但是得到的数字显示失业率很难看,那么政策就要调整。这个滞后性有时是灾难性的。
现在,谷歌的科学家们已经可以早于高盛和白宫,拿到经济数据了。谷歌的科学家们发现,失业率有上升的迹象,那么有几个关键词的搜索频率就会增长。例如,搜索最多的居然是色情网站!因为失业者正好有大把的空闲时间〔而且经济还没有完全衰退的迹象,所以他们觉得借失业给自己放,过几天再去找工作也好。
还有一个例子是葡萄酒。普林斯顿大学的经济学教授Orley Ashenfelter 非常爱喝葡萄酒。但是他很困惑的是,为什么都是一个庄园的葡萄酒,有些好喝、有些很难喝呢?关键价钱都是一样的啊,怎么样才能只买好喝的葡萄酒呢?
后來,教授得知,酒的好坏跟当年的天气有关系。这就是为什么82年的拉菲最好,因为那一年波尔多的天气非常适合酿造葡萄酒。这激起了教授做学术的好奇心,经过一系列量化分析,他居然得出了一个数学公式:葡萄酒的价格=12.145+0.00117×当年冬季降雨量+0.0614×成长季节的平均温度-0.00386×收获时的降雨量。Ashenfclter教授说从此他买的葡萄酒都味道不错。
Seth还举了一个例子:Premise公司。这家大数据公司,如今的客户是包括世界银行及很多不发达国家的政府机构。Premise向这些客户提供反应全球经济和该国家经济的实际情况的实时数据,给予他们制定政策所需的关键数据分析。PiremiseS怎么做的呢?
Premise在目标国雇佣了很多当地的工人。这些工人的工作就是用智能手机拍照片,在加油站也拍、在超市也拍、出门逛街也拍,总之没有任何要求地拍摄照片,然后传回到Premise总部。之后,Premise公司的科学家们迅速把照片变成数据,然后对其中的信息进行解读:加油站排队人数多,说明经济可能存在潜在问题;超市里的新鲜水果库存不足,也说明经济存在问题等等。通过这些数据,Premise公司成功地预测了中国在2011年因食品涨价引发的通胀和2012年的通缩,他们的报告远远早于中国政府的官方数据。