主持人:李贞芳
主题:公共关系调研与评估
时间:7:00pm-9:00am(2014年5月8日星期四)
地点:东九 D205
研究方法小知识(孙志祥编写)
大数据时代还需要抽样吗?
《大数据的时代》的作者维克托· 迈尔·
舍恩伯格在介绍大数据时代的数据分析思维转变时提到过三个观点,其中之一是:分析所有的数据,而不再仅仅依靠一小部分数据。大数据一时甚嚣尘上,研究者以为大数据就是全数据,以至于再谈抽样都似乎带有保守主义色彩,而这种看法无疑是对大数据和抽样二者都存在偏见和不足。
香港城市大学祝建华教授认为,关键要区分我们用的是总体数据、样本数据、还是局部数据。总体数据最直观的例子就是每10年我国都要对全体居民进行人口普查,其结果就是总体数据。样本数据就是通过抽样获得。局部数据,则是总体数据的一个子集,但不是通过随机方法从总体中抽出来的,而是用各种便利或现存的方法得到的。局部数据往往比样本数据大很多,但两者有严格的区别。
理论上讲大数据指的应该就是总体数据。但实际上,由于技术、商业、保密和其它原因,除了少数大数据的原始拥有者。对于绝大多数的第三方来讲的大数据,基本上都不是总体数据而是局部数据。然而这种局部数据,哪怕占了总体的很大一个百分比(70%、80%),既不是总体数据、也不是抽样数据。因为哪怕是缺了10%、20%的个案,局部数据跟总体也许就有很大的差别。三种数据中,如果只考虑质量、不计成本、效率等其它因素,总体数据最靠谱,其次是样本数据、最不靠谱的是局部数据。样本数据虽然规模要小很多,但实际上在很多情况下比局部数据要更有价值,更可靠。下图是作者做的一个模拟,随机产生了一万个数值(蓝色),姑且把它当作是总体。从中随机抽了500个值(红色),这个样本看上去很稀疏(即误差大、不够精确precise),但是它对总体的代表是很好的,即在X和Y轴上的平均数都与总体相同,都在原点上。再抽8000个值(即总体80%)的局部数据(绿色),人为的设定一些限制,使得正面数值更容易出现,结果紧密的多(即误差小了),但其平均数往右上方向偏,即精确但不准确accurate。如果依靠局部数据,被局部数据的海量规模所迷惑,其实是害死人的。历史上有过很多案例(最著名的莫过于美国1936年的总统选举),显示了局部数据大而无当。
参考文献:
祝建华.一个文科教授眼中的大数据:多、快、糙、耗?http://cio.yesky.com/387/34364887.shtml