热线电话:13121318867

登录
首页精彩阅读前沿数据方法,如何解决数据漂移?
前沿数据方法,如何解决数据漂移?
2022-02-24
收藏
前沿数据方法,如何解决数据漂移?

CDA数据分析师 出品

作者:徐杨老师

编辑:Mika

同学们大家好,我是徐杨老师,今天给大家分享一个现在前沿的业务分析方法。

现在有一个非常前沿的词叫做数据漂移,可能有一部分同学听说过,英文是Data Drift。

数据漂移是什么?

那么,什么叫做数据漂移呢?

我们举个例子,现在有一个APP非常火,叫做国家反诈中心APP。

我们知道,如今网络诈骗是一个很让大家头疼的问题,那么假如说你作为公司的分析师,也受命需要去开发一套用来给你的企业识别异常用户的一套分析模型。

经常我们会碰到的一个问题是,你花了很大的力气把分析模型都构造好了,上线以后很快发现,这个模型明明知道之前在测试集上跑的效果还不错,但是实际上线部署以后模型的效果会快速下降,这是为什么呢?

其实很简单。不止我们作为分析师的分析能力在进化,那些犯罪分子的犯罪方法也是太进化的。也就是说如果我们用的是以前的分析方法来识别新的犯罪分子的犯罪手段,肯定效果是要大打折扣的。

从技术语言来说,如果我们是用以前的数据训练出的模型来分析现在的一些新数据,那么这就是训练模型的时候,我们面对的数据分布和我们实际模型上线部署时,面对的数据分布是产生了变化的。

这种问题就叫做数据漂移。

现在一般在业界解决数据漂移比较经典的方法是引入自动机器学习

同学们知道我们一般做数据分析的时候是先收集数据,然后构造模型,最后输出分析结果。

那么我们就可以在最后输出分析结果的地方,增加一般叫做monitor,或者说叫做模型监控的这样一段代码。

它的作用是实时分析,现在模型预测的效果是好是坏,然后调整的不是模型,调整的是谁呢?

如果监测出问题,调整的是我们收集数据这个环节的工作。然后通过收集更新的数据,实时去调整模型里面的参数,然后再继续去监控我现在自动更新出的模型效果如何。

总结一下就是,传统的方法是我们在训练模型的时候,拿到的数据集是固定的,我们动的是我们选择哪些模型,模型里的参数怎么调优,怎么给出最后好的方法组合。这是我们传统的方法,固定数据,动模型,动参数。

现在更新的方法是,我们首先要保证我们的模型训练的没有问题,然后固定模型,动数据。

那么,应该怎么动数据?怎么去拿到新的数据?

是看我们监控到的模型分析结果来,反过来决定我们要在哪些地方埋下更多的点,拿到更新的数据,以及拿到哪些有用的特征,去实时的更新模型里面的超参数。

这是现在用来解决数据漂移一个比较前沿的分析方法,希望对大家有帮助。

好,以上就是今天的分享。如果大家还有数据分析方面相关的疑问,就在评论区留言。

数据分析咨询请扫描二维码

最新资讯
更多
客服在线
立即咨询