大数据自下而上:算法和统计学完美的结合
从理论上来说有这样终极的目标:给定一个可以推理的目标,同时确定固定的计算时间,提供由算法和分析支撑的保证,按小时、分钟、秒进行计算,推论的质量将会随着数据的精确性而单调递增,并且是没有边界的无线增长。随着数据无边界的增长,遇到很大的麻烦,我们每一代人都需要面对。我们想一次解决,有什么样的办法可以推理积累的大量数据?需要花时间解决,这可能需要几十年才能解决。
我们看一下目前的进展。其中一个就是自下而上的办法,将算法原理和统计学的推论完美地结合在一起。这些算法原则上来讲,可以放在一个环境当中,我们选一些分治的方法来解决。这些难题,我们聚合起来,聚合的越多,这些错就越少,更好做一些。然后分开相互之间相互矛盾的数据,包括统计数字,还有计算机科学的数字,可以避免带来很大的麻烦。然后再回到我们理论上的问题,如何进行权衡,提高我们计算的效率。
1.大数据引导程序(The bootstrap)
首先第一个问题,我们叫做大数据的引导程序,我们在伯克利几年前做过这样的工作。这个引导程序能够解决一些非常重要的问题--评价推论的质量。很多有学识的研究者并不太关注推论的质量。输入数据到一个盒子里面,然后得到一个答案,是9.5.但是多数的决策并不能满足要求,要知道9.5里面的差错率多大?如果这个数字超过10的话,就要把肝切掉了,如果是9.5的话还可以。所以,这是真正的9.5吗?还存在很大的误差吗?或者是没有超过10吗?如果真正做出真实的决策时,是没有误差这个栏的考虑,但是计算机科学家们需要对这个有很深的了解。所以我们要进行工作,能够在数据库的社区里面建立一些数据库,能够输入,然后再输出,同时有一个非常清楚明白的误差栏。
现在让我们进入到另外一个领域,进入到统计学里面怎么样呢?很有意思的一点就是在非常简单的事情上,我们抽样,根据有相关的公式,可以通过这样的途径进行了解。比如说我们根据抽样里面的差异性,加上知道差错率,如果不讲差错率,有一个中等的情况,比如说10.2,那这个误差是多少呢?并没有这样的公式在里面。我们怎么知道一般情况中存在的差异性?我们有一个通常叫做的程序框架,能够应对快速扩展的大数据,并且计算误差率。
到底推断的质量如何?我们观察的数据包括机器的误差率和基于数据进行参数的预测。我们叫做形成一种参数的预估值。就像一条程序、一个黑匣子,到底有多少的误差在里面,这是我们所关注的。通过对程序进行计算,了解数据指标情况,如果想做一个理想的统计学家的话,还要对它进行科学的定义。
所谓的频率主义者,每一个数据都会要计算中间的情况,还有一些预估估算,不同的数据级进行浮动,你看浮动的范围就带来这种所谓的误差率。从这个定义来说,这个误差率是什么,误差率就是指你还需要更多的时间分析这些数据。如果你没有大量的数据,你不能够对这些数据进行一次又一次的检验,并同时看他们之间的浮动。如果没有一个数据集的话,就可以一次性去做,看看生成的情况,我们只有一个数据集。
我们设想一下,如何分析这些问题,解决这些问题,即使只有一个数据集。这些数据来自什么地方,有这样的一些群体,比如说在我们这里生成一些数据,有一个曲线可以反映出相关的群体。如果是一个一般不存在的东西,上面有一个幻灯片,可以形成一个数据集,两个数据集,对每个数据集进行计算,你所在意的都是一些数据的预测,然后得到一个公式。可以做计算机的并击处理,生成一个数据的处理,每一个计算机可以进入一个预估值,然后可以在估算当中产生一些误差。然后这个里面我们没有多个数据级,我们不能这样去做。我们观察有一个数据来自这样的群体,然后这些数据不是列出来的数据,这些数据的分布图是分布式,可以生成越来越多的数据。这种分布尽管不可以换,但是你可以从中抽样。我们叫做近似值,基本上是真实的。[page]
所以说,这是非常微妙、深层的理念,拿过一个数据级生成多个数据级,这个叫做引导程序。1979年的时候拿到的一个大奖,这里其实是非常简单的理念。尽管1979年还没有云的语言等,也是可以这样做。你可以用于任何的查询上,为什么不把所有的数据库从云上取样,听起来是非常好的理念。但是,这可以在我们计算机科学里面有更加好的应用。我们的一些数据在服务器上已经分布了,如果重新抽样,数据级拿过来,从里面进行抽样,得先返回去,再回到这个地方。意味着什么呢?从这个上面进行取样,讲的更清楚一些,就是基于终端的数据,这是一个分布式的,可以从任何一侧进行取样。比如说从一天当中这个数据发生的时间当中取样,同样一个大的数据级可以做一次,然后反复的做,这又意味着什么?如果这样取样的话,从其中一个点上分布,可以得到其中一个点,然后按比例的高度划分,我得到这一点,再次做一下,可以获得同样的点。做N次,在某些点上可以得到很多次。这跟我们取样和替代一样,把一个样品拿过来然后再返回去,反复地做。
我们经常描述,把最初的数据拿过来重新取样,然后做很多次,就是所谓的引导程序。数据点上有替代,可以做数学计算,0.632次,如果有这个取样的话,就有632个。不能做这么大,这是我们主要的程序,在随意的预估上,可以达到引导程序,已经超越一些小数据了,这是可能会带来的一些问题。
2.二次抽样(Subsampling)
还有另外一个方面,就是统计学家们做的。他们需要有竞争力,出现另外一个程序的话,它也可以来解决,叫做二次取样。二次取样跟以前一样,进行一个取样,在这个里面可能太大了,我们用一个子抽样,或者再次的抽样,进行一个划分。我们很快的到预估值上,在这个B点上得到9.5的数字,我可以再次去做,把B点从N点里面取出来,可以做很多次。我们可以有多少的估算值,还有这样的浮动,听起来很好,一个数据级,我得到各种估算值,问题就是是否正确。因为B点,预算值大小取决于N点的数量,这个取样是来了解这些误差。我们可以有这样的浮动,规模不一样的,尺寸大小不一样,错就错了。所以不能进行二次抽样估算得到答案,这个答案是错误的。
这里关键问题产生了,这个比例是错了,这个值太大了,因为这个数据级太小了。我们重新设定他们的尺寸,这样一个比例怎么进行设置?一般不知道怎么做。对于像一个黑匣子一样,在数据库里面放一些东西,用户定义的功能,就不知道它的尺寸多大,然后还有一定数量的数据点等,这也是一个问题,你必须要从理论上针对每一个黑匣子去做。更加严重的问题是,如果在现实中使用的话,如果是工程上的默认,这里有一个例子,50000个合成数字,我们还有一些计算,我们用合成的方法做,知道真正的Airbas是什么,这是我们做的结果。再强调一点,这里并没有任何二次的抽样,只需要1.5次的工作,就可以进行取样。
这里误差有一个核算,我们有合成的数据。X轴上看到的时间,运行的是二次取样,不同的取向,还有y轴上,你可以看到0.5在这个上面,这个误差是很坏的,这个蓝色的点是一个蓝色的程序,这是Bootstrap的对象,可以很快的稳定走下来。我们可以来把这个误差变成0,然后我们可以进行平均,在这个上面,并不是要达到Bootstrap,在合理的范围内,我们达到6,这个还是有问题的,然后在7、6.8,然后在绿色的线下面,他们更有效的使用我们的引导程序,引导程序的效率是很高的。它也是有一个N的融合。这个B是一个最中心的限制,我们感到很惊讶,就是在80年代论证的时候。
对于这些我可以看到非常好的结果,现在的0.9是这个浅绿色又出现问题了,它还重复出现,但是这个值我们还不知道,我们知道这是真实的地方,正确的价值,但是现实当中我们是无法知道的。工程师的一些方法有的时候是做不到的。[page]
3.新流程的小“自助包”(Bag of little bootstraps)
我们还有另外一个理念“小自助包”,我将会讨论新的步骤结合引导程序和二次抽样,并且运用他们最好的部分。同小部分的数据一起,比如说二次抽样和同样适合分布式计算平台。但是,与引导程序相同,它并不需要分析的部分,所以想到一些理念,我们的Bootstraps运行40多年了,统计学家不会有任何的程序上的担心。
再回到这个图片,我们还有真实性,还有数据级,还有一个Size B,进行重新的取样。现在我们注意到这个Size
B的数据是来自于周围的一个步骤,他们还是间接的来自下面一个真实的情况。我们继续看我们的子集,图片看上去不太好,现在的N不是10,想一下预估值和估算值也是非常好的近似值。然后不要考虑这是否是真实的,你现在面临这样的世界,你是一个大家伙,这是你真实的情况。你可以进行抽样,基于我们的B点,它是一种分布,你可以来去抽样,按你所需要的次数,多少次都可以,只要能想到的。你把这个对象拿过来,然后你可以及时的进行抽样,现在在正确的比例值上,有合适的数据级是需要的。其中很多点会重复很多次。
然后我们多次的对它进行取样,在某些点可能完全不做,然后我们有B点,觉得它非常小,我们觉得它是分布式的。我们有一个非常好的叫做B取样的分子级,我不想去分析它,尽管这是一个本地的网络,但是也不会把它分散。所以每一个B点会多少次被二次取样,这些数据在什么地方,我们可以把这个放在原来的基础上,我们可以做多次的事情,再做引导程序,这样的话,我们把子取样进行引导,有一张图作为我的总结。
这个流程比较复杂,你把B取样的一个子样,然后放在一个数据级上,然后又替代一段时间内,你获得的值,因此上面是一个处理器,它有一个引导程序,我们为什么不用一个框进行解决问题呢?他是一个比较小的取样,它是正确的,但是有很多的噪音,我们必须要平均。所以必须需要多个框,可能需要200个处理器都执行同样的一个计算的流程。那么,他们可能都会有一个平均的错误率。
这是有效的,首先回到一个TB的问题,N=N的6次方,比如说我们子样数据级的大小是4GB,而再次取样的数据级别也是4GB,那么这张图和刚才那张图是一样的。就是在一个数据集上,加大计算机的利用率。如果在真正的分布式的计算环境里面做,我想应该是0.5TB,会在一个大的数据库里会发生什么呢?我们看一下引导程序,不可能进行并行化,我们使用并行计算,通过机器学习,做第一个再取样,再做一次,然后再并行计算的计算机上进行Bootstraps计算,大概15000秒的时间获得一个合理的答案,对于应用来说稍微有一点慢了。所以我们现在怎么做?我们有一个算法。对于0.5TB的数据,放到所有本地的200个处理器上,也就是说这个红点的位置,然后再取样,再做引导程序。我以前在机器学习方面,我不可能有这样的图做出来,只是20%、30%的完善。这却改变了并行计算的方式,我们可以进行非常大型的一种引导程序,我们现在可以在数据库中做,我们正在开发关系型的数据库当中。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
SparkSQL 结构化数据处理流程及原理是什么?Spark SQL 可以使用现有的Hive元存储、SerDes 和 UDF。它可以使用 JDBC/ODB ...
2025-01-09在如今这个信息爆炸的时代,数据已然成为企业的生命线。无论是科技公司还是传统行业,数据分析正在深刻地影响着商业决策以及未来 ...
2025-01-08“数据为王”相信大家都听说过。当前,数据信息不再仅仅是传递的媒介,它成为了驱动经济发展的新燃料。对于企业而言,数据指标体 ...
2025-01-07在职场中,当你遇到问题的时候,如果感到无从下手,或者抓不到重点,可能是因为你掌握的思维模型不够多。 一个好用的思维模型, ...
2025-01-06在现代企业中,数据分析师扮演着至关重要的角色。每天都有大量数据涌入,从社交媒体到交易平台,数据以空前的速度和规模生成。面 ...
2025-01-06在职场中,许多言辞并非表面意思那么简单,有时需要听懂背后的“潜台词”。尤其在数据分析的领域里,掌握常用术语就像掌握一门新 ...
2025-01-04在当今信息化社会,数据分析已成为各行各业的核心驱动力。它不仅仅是对数字进行整理与计算,而是在数据的海洋中探寻规律,从而指 ...
2025-01-03又到一年年终时,各位打工人也迎来了展示成果的关键时刻 —— 年终述职。一份出色的年终述职报告,不仅能全面呈现你的工作价值, ...
2025-01-03在竞争激烈的商业世界中,竞品分析对于企业的发展至关重要。今天,我们就来详细聊聊数据分析师写竞品分析的那些事儿。 一、明确 ...
2025-01-03在数据分析的江湖里,有两个阵营总是争论不休。一派信奉“大即是美”,认为数据越多越好;另一派坚守“小而精”,力挺质量胜于规 ...
2025-01-02数据分析是一个复杂且多维度的过程,从数据收集到分析结果应用,每一步都是对信息的提炼与升华。可视化分析结果,以图表的形式展 ...
2025-01-02在当今的数字化时代,数据分析师扮演着一个至关重要的角色。他们如同现代企业的“解密专家”,通过解析数据为企业提供决策支持。 ...
2025-01-02数据分析报告至关重要 一份高质量的数据分析报告不仅能够揭示数据背后的真相,还能为企业决策者提供有价值的洞察和建议。 年薪 ...
2024-12-31数据分析,听起来好像是技术大咖的专属技能,但其实是一项人人都能学会的职场硬核能力!今天,我们来聊聊数据分析的核心流程,拆 ...
2024-12-31提到数据分析,你脑海里可能会浮现出一群“数字控”抱着电脑,在海量数据里疯狂敲代码的画面。但事实是,数据分析并没有你想象的 ...
2024-12-31关于数据分析师是否会成为失业高危职业,近年来的讨论层出不穷。在这个快速变化的时代,技术进步让人既兴奋又不安。今天,我们从 ...
2024-12-30数据分析师在现代企业中扮演着关键角色,他们的工作内容不仅丰富多样,还对企业的决策和发展起着重要的作用。正如一个经验丰富的 ...
2024-12-29数据分析师的能力要求 在当今的数据主导时代,数据分析师的角色变得尤为重要。他们不仅需要具备深厚的技术背景,还需要拥有业务 ...
2024-12-29随着技术的飞速发展与行业的持续变革,不少人心中都存有疑问:到了 2025 年,数据分析师还有前途吗?给你分享一篇阿里P8大佬最近 ...
2024-12-29如何构建数据分析整体框架? 要让数据分析发挥其最大效能,建立一个清晰、完善的整体框架至关重要。今天,就让我们一同深入探讨 ...
2024-12-27