热线电话:13121318867

登录
首页职业发展大数据数据源从哪里来
大数据数据源从哪里来
2016-07-31
收藏

大数据数据源从哪里来

大数据好像很神秘,可是再神秘,它也跟传统学科一样,需要被拷问大数据数据源从哪里来的问题。

其实数据无处不在,政府、网站、商业伙伴、甚至你自己的身体。虽然我们不是完全淹没在数据的海洋里,但可以看到几乎所有的东西都可以(甚至已经)被测量了,不管你是有意识还是无意识。
在O’Reilly传媒公司,我们经常会把来自Nielsen BookScan的行业数据与我们自己的销售数据、公开的亚马逊数据、甚至就业数据组合起来研究出版行业发生了什么。
一些网站更甚,比如Infochimps和Factual,可以提供很多大型数据集的连接,包括天气数据、MySpace的活动流数据、体育活动比赛记录等。Factual网站还招募用户来更新和改进它的数据集。这些数据集覆盖了从内分泌学家到徒步小道等的广泛内容。
现阶段我们用的数据都是Web 2.0的产物,也遵守摩尔定律。Web让人们花更多的时间在线,同时也留下了他们的浏览轨迹。移动端应用则留下了更丰富的数据轨迹,因为很多应用都被标注了地理位置信息或附带着音频和视频。这些数据都可以被挖据。
结帐点设备和经常购物者购物卡使得获取消费者的所有交易信息(不光是在线信息)成为可能。如果我们不能存储这些数据,那么所有这些数据就将没有用处。这里就是摩尔定律起作用的地方。
自80年代早期开始,处理器的速度就从10Mhz增加到了3.6GHz,增加了360倍(这还没考虑处理位数和核数的增加)。但是我们看到存储能力的增加则更为巨大。内存价格从1000美元每兆字节降到25美元每吉字节,几乎是40000倍的降低。这还没考虑内存尺寸的减少和速途的增加。
日立公司在1982年制造了第一个吉字节的硬盘,重大概250磅。现在千吉字节级别的硬盘已经是普通消费品,而32吉字节的微存储卡只有半克重。无论是每克重的比特数、每美元比特数或者总存储量,存储能力的提升已经超过了CPU速度的增幅。
摩尔定律应用于数据的重要性不仅是极客的技巧。数据的增长总是能填充满你的存储。硬盘容量越大,也就能找到更多的数据把它填满。浏览网页后留下的“数据排气”、在脸书上添加某人为朋友或是在本地超市买东西,这些数据都被仔细的收集下来并进行分析。
看了以上,相信你已经知道大数据数据源从哪里来的了。数据存储的增加就要求有更精致的分析来使用这些数据。这就是数据科学的基石。

数据分析咨询请扫描二维码

最新资讯
更多
客服在线
立即咨询