今天说一下大数据。首先数据分为三种类型,一类是结构化的数据,就是有固定格式和有限长度的数据,比如填各种申请表格,姓名:张三,年龄:23,性别:男。这就是结构化的数据。还有一类是非结构化数据,长度和格式都不固定的数据。最后一类是半结构化数据。最累最无聊的活就是数据清洗了。
不过一段很有意思的话,就是,数据本身是worthless的,没有价值的。没有有经过分析处理的数据只能叫做Data。但是经过梳理,可以从杂乱的Data里面提取Information,然后要从这些information中总结规律,形成knowledge.知识是什么,知识就是力量啊。有的人会接着这股力量用于实战,有的人会做的特别好,这就是把knowledge转换成了intelligence。从Data(数据)到Information(信息)再到Knowledge(知识)最后实战的Intelligence(智慧),这是从事数据分析的意义所在。
当对数据进行收集,传输,存储,处理,分析,检索,挖掘,应用时,都需要调用资源。数据量很小的时候,很少的几台机器就能解决。慢慢的当数据量越来越大,要聚合多台机器的力量,大家齐心协力一起把这个事搞定,众人拾柴火焰高。随着数据量越来越大,很多不大的公司都需要处理相当多的数据,这些小公司没有这么多机器可怎么办呢?
云计算挺身而出了。当想要干这些活的时候,需要好多好多的机器一块做,真的是想什么时候要,想要多少就要多少。例如大数据分析公司的财务情况,可能一周分析一次,如果要把这一百台机器或者一千台机器都在那放着,一周用一次对吧,非常浪费。那能不能需要计算的时候,把这一千台机器拿出来,然后不算的时候,这一千台机器可以去干别的事情。谁能做这个事儿呢?只有云计算,可以为大数据的运算提供资源层的灵活性。现在公有云上基本上都会有大数据的解决方案了,一个小公司我需要大数据平台的时候,不需要采购一千台机器,只要到公有云上一点,这一千台机器都出来了,并且上面已经部署好了的大数据平台,只要把数据放进去算就可以了。