海瑟薇效应:数据挖掘里会不会出现关公战秦琼的现象?
今天我给大家讲一讲,数据挖掘里面有没有可能出现关公战秦琼的现象?
关公战秦琼是来自于侯宝林先生的相声,非常非常地流行,小时候我经常听,听完以后笑得前仰后合的。
相声的大意是说,一个有钱人请了一些人来唱戏,有钱人家有的人喜欢关公,有的人喜欢秦琼,于是他们家人就逼着唱戏的人演关公战秦琼。大家也可以想象一下关公战秦琼的情形:关老爷出镇,赤面长须,青龙堰月刀,胯下赤兔马,来将何人?那边秦琼一提黄骠马的缰绳迎了上来,叮叮咣咣、噼里啪啦一场恶斗!
当然这就是相声一说了,关公是三国时候蜀国的大将,秦琼是隋末唐初的大将,虽然说两人都是一等一的英雄,但两人相差好几百年,怎么可能打在一起。
在我们今天的大数据里头,在我们进行数据挖掘的时候,可不可能发生这种情况?就是我们发现两个因素,它们两个是相关联的,一个向上走,另一个也向上走;一个向下走,另一个也向下走;或者两个同时被顾客购买。而这两个因素实际上是没有任何关系的。
在我回答这个问题之前,我给大家先讲一个故事。
好莱坞有一个著名的女演员叫做安妮·海瑟薇。
我不知道大家都看过她的电影没有,十几年前的时候她在票房还是比较火的。
当你听到这个演员的名字的时候,如果你对管理学或者是投资有一些兴趣的话,那么你应该意识到她的姓不普通,她这个姓叫 Hathaway。
那么我们知道还有一个著名的公司它也叫 Hathaway,就是 Berkshire Hathaway。Berkshire Hathaway 就是著名华尔街投资家巴菲特的公司。