大数据通常都有个隐性假设:我们能够获取所有的数据记录?
提到大数据和抽样数据,大家都了解吗?这经常会用到我们生活当中。我们都知道有一个理性的假设,那就是如果我们能够获取所有的数据记录的话,那么研究的对象就是所有的个体,而不是其中的个别样本,所以获取数据也具有很多的优点,而对于这个大数据也是非常全面的。

我们先来看一下它的优点,首先可以进行自由的探索,深入到不同的层面,而且它也有利于收集的方式,数据能够较少的抽取相关的数据调查,而只会有少量的偏差。其次,研究数据的规模也可以在研究人员发现小规模的样本当中,而不可能发现的关系,有助于发现以前隐藏的信息,例如我们以谷歌的流感趋势为调查压力来进行的话。

谷歌利用绘出搜索关键词来预测流感,而预测的结果就可以反映流感在每个城市当中的传播情况。不仅如此,也有网友花了4个月的时间,对于某网络运营商的匿名投诉的用户的日志进行了研究,研究出该运营商为近1/5的欧洲人口提供了无限的服务,运用到了每个人的数据集,所以,可以解释人类的很多行为,而这样的做法也是很多小样本无法做到的。

所以这种大数据正是人类研究,长期梦寐以求的东西,而大数据如果被利用的话,还面临着很多的挑战。大家有用过吗?