数据模型需要多少训练数据-CDA数据分析师官网

数据模型需要多少训练数据

2016-01-10

数据模型需要多少训练数据

毫无疑问机器学习是大数据分析不可或缺的一部分，在使用机器学习技术的时候工程师除了要选择合适的算法之外还需要选择合适的样本数据。那么工程师到底应该选择哪些样本数据、选择多少样本数据才最合适呢?来自于Google的软件工程师Malay Haldar最近发表了一篇题为《数据模型需要多少训练数据》的文章对此进行了介绍。

训练数据的质量和数量通常是决定一个模型性能的最关键因素。一旦训练数据准备好，其他的事情就顺理成章了。但是到底应该准备多少训练数据呢?答案是这取决于要执行的任务，要满足的性能，所拥有的输入特征、训练数据中的噪音、提取特征中的噪音以及模型的复杂程度等因素。而找出这些变量之间相互关系的方法就是在不同数据量的训练数据上训练模型并绘制学习曲线。但是这仅仅适合于已经有一定数量的训练数据的情况，如果是最开始的时候，或者说只有很少一点训练数据的情况，那应该怎么办呢?

与死板地给出所谓精确的“正确”答案相比，更靠谱的方法是通过估算和具体的经验法则。例如本文将要介绍的实证方法：首先自动生成很多逻辑回归问题。然后对生成的每一个问题，研究训练数据的数量与训练模型的性能之间的关系。最后通过观察这两者在这一系列问题上的关系总结出一个简单的规则。

生成一系列逻辑回归问题并研究不同数据量的训练数据所造成的影响的代码可以从GitHub上获取。相关代码是基于Tensorflow实现的，运行这些代码不需要任何特殊的软件或者硬件，用户可以在自己的笔记本上运行整个实验。代码运行之后生成的图表如下：

<a href='/map/luojihuigui/' style='color:#000;font-size:inherit;'>逻辑回归</a> 其中，X轴是训练样本的数量与模型参数数量的比率。Y轴是训练模型的得分(f-score)。不同颜色的曲线表示不同参数数量的模型。例如，红色曲线代表模型有128个参数，曲线的轨迹表明了随着训练样本从128 x 1到 128 x 2并不断增长的过程中该模型的得分变化。

通过该图表，我们能够发现模型得分并不会随着参数规模的变化而变化。但是这是针对线性模型而言，对于一些隐藏的非线性模型并不适合。当然，更大的模型需要更多的训练数据，但是对于一个给定的训练模型数量与模型参数数量比率其性能是一样的。该图表还显示，当训练样本的数量与模型参数数量的比率达到10:1之后，模型得分基本稳定在0.85，该比率便可以作为良好性能模型的一种定义。根据该图表我们可以总结出10X规则，也就是说一个优秀的性能模型需要训练数据的数量10倍于该模型中参数的数量。

10X规则将估计训练数据数量的问题转换成了需要知道模型参数数量的问题。对于逻辑回归这样的线性模型，参数的数量与输入特征的数量相等，因为模型会为每一个特征分派一个相关的参数。但是这样做可能会有一些问题：

特征可能是稀疏的，因而可能会无法直接计算出特征的数量。

由于正则化和特征选择技术，很多特征可能会被抛弃，因而与原始的特征数相比，真正输入到模型中的特征数会非常少。

避免这些问题的一种方法是：必须认识到估算特征的数量时并不是必须使用标记的数据，通过未标记的样本数据也能够实现目标。例如，对于一个给定的大文本语料库，可以在标记数据进行训练之前通过生成单词频率的历史图表来理解特征空间，通过历史图表废弃长尾单词进而估计真正的特征数，然后应用10X规则来估算模型需要的训练数据的数据量。

需要注意的是，神经网络构成的问题集与逻辑回归这样的线性模型并不相同。为了估算神经网络所需要的参数数量，你需要：

如果输入是稀疏的，那么需要计算嵌套层使用的参数的数量。参照word2vec的Tensorflow教程示例。

计算神经网络中边的数量

由于神经网络中参数之间的关系并不是线性的，所以本文基于逻辑回归所做的实证研究并不适合神经网络。但是在这种情况下，可以将10X规则作为训练数据所需数据量的下限。

尽管有上面的问题，根据Malay Haldar的经验，10X规则对于大部分问题还是适用的，包括浅神经网络。如果有疑问，可以在Tensorflow的代码中插入自己的模型和假设，然后运行代码进行验证研究。

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试详情；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试详情；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

特征神经网络逻辑回归机器学习学习曲线特征空间大数据数据分析

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇回归系列（一）| 怎样正确地理解线性回归

下一篇2020美国总统竞选大戏开锣，川普当选的奇迹会再发生吗？

数据模型需要多少训练数据

CDA考试动态

CDA报考指南

热门栏目

最新资讯

非专业，怎么才能证明自己的数据分析能力？ ...

保姆级教程！一文读懂数据分析师的职业发展路径 ...

【干货】用DeepSeek三步骤搞定Excel数据清洗，效率 ...

被统计公式劝退？这门极简课程让你14天学会用Python ...

【干货】如何用RFM模型精准识别高价值客户？ ...

CDA数据分析师就业班3月29日开班，仅剩1个名额 ...

【案例】网飞Netflix流量漏斗分析案例 ...

tensorflow_datasets 如何load本地的数据集？ ...

《CDA二级教材》试读版上线CDA网校，助你轻松拿下二 ...

【干货】3步带你画出用户DNA，精准营销更进一步 ...

什么是随机森林，它的优缺点是什么？：面试标准答案 ...

【干货】电商营收暴跌40%，如何排查？ ...

【干货】如何通过精细化运营提升 DAU 指标？ ...

【干货】AB test 在业务中的落地应用

自上而下的指标体系构建全攻略

解锁数据分析师高薪密码，CDA 脱产就业班助你逆袭！ ...

如何在mysql语句中查询一个表,但不包含某字段? ...

深度解析用户画像：数据运营的核心力量 ...

2025年AI智能体元年，数据分析师会被替代吗？ ...

【案例】业务数据分析方法之多维度拆解 ...