2014年传播学研究方法沙龙（88）

您现在的位置：网站首页学术研究学术动态正文 学术动态

2014年传播学研究方法沙龙（88）

发布时间：2014年05月07日点击次数：

主持人：李贞芳

主题：公共关系调研与评估

时间：7:00pm-9:00am（2014年5月8日星期四）

地点：东九 D205

研究方法小知识（孙志祥编写）

大数据时代还需要抽样吗？

《大数据的时代》的作者维克托· 迈尔· 舍恩伯格在介绍大数据时代的数据分析思维转变时提到过三个观点，其中之一是：分析所有的数据，而不再仅仅依靠一小部分数据。大数据一时甚嚣尘上，研究者以为大数据就是全数据，以至于再谈抽样都似乎带有保守主义色彩，而这种看法无疑是对大数据和抽样二者都存在偏见和不足。

香港城市大学祝建华教授认为，关键要区分我们用的是总体数据、样本数据、还是局部数据。总体数据最直观的例子就是每10年我国都要对全体居民进行人口普查，其结果就是总体数据。样本数据就是通过抽样获得。局部数据，则是总体数据的一个子集，但不是通过随机方法从总体中抽出来的，而是用各种便利或现存的方法得到的。局部数据往往比样本数据大很多，但两者有严格的区别。

理论上讲大数据指的应该就是总体数据。但实际上，由于技术、商业、保密和其它原因，除了少数大数据的原始拥有者。对于绝大多数的第三方来讲的大数据，基本上都不是总体数据而是局部数据。然而这种局部数据，哪怕占了总体的很大一个百分比（70%、80%），既不是总体数据、也不是抽样数据。因为哪怕是缺了10%、20%的个案，局部数据跟总体也许就有很大的差别。三种数据中，如果只考虑质量、不计成本、效率等其它因素，总体数据最靠谱，其次是样本数据、最不靠谱的是局部数据。样本数据虽然规模要小很多，但实际上在很多情况下比局部数据要更有价值，更可靠。下图是作者做的一个模拟，随机产生了一万个数值（蓝色），姑且把它当作是总体。从中随机抽了500个值（红色），这个样本看上去很稀疏（即误差大、不够精确precise），但是它对总体的代表是很好的，即在X和Y轴上的平均数都与总体相同，都在原点上。再抽8000个值（即总体80%）的局部数据（绿色），人为的设定一些限制，使得正面数值更容易出现，结果紧密的多（即误差小了），但其平均数往右上方向偏，即精确但不准确accurate。如果依靠局部数据，被局部数据的海量规模所迷惑，其实是害死人的。历史上有过很多案例（最著名的莫过于美国1936年的总统选举），显示了局部数据大而无当。

参考文献：

祝建华．一个文科教授眼中的大数据：多、快、糙、耗？http://cio.yesky.com/387/34364887.shtml

上一主题： 2014年传播学研究方法沙龙（89）

下一主题：《学术沙龙》第66期：广告效果研究的理论范式转移

学术研究

学生作品

学术研究Academic Research