作者 | Andrej Karpathy
编译 | AI有道
特斯拉人工智能部门主管 Andrej Karpathy 发布新博客,介绍神经网络训练的技巧。
Andrej Karpathy 是深度学习计算机视觉领域、与领域的研究员。博士期间师从李飞飞。在读博期间,两次在谷歌实习,研究在 Youtube 视频上的大规模特征学习,2015 年在 DeepMind 实习,研究深度强化学习。毕业后,Karpathy 成为 OpenAI 的研究科学家,后于 2017 年 6 月加入特斯拉担任人工智能与视觉总监。
今日他发布的这篇博客能为深度学习研究者们提供极为明晰的洞见,在 Twitter 上也引发了极大的关注。
1. 谁说神经网络训练简单了?
很多人认为开始训练神经网络是很容易的,大量库和框架号称可以用 30 行代码段解决你的数据问题,这就给大家留下了(错误的)印象:训练神经网络这件事是非常简单的,不同模块即插即用就能搭个深度模型。
简单的建模过程通常如下所示:
>>> your_data = # plug your awesome dataset here
>>> model = SuperCrossValidator(SuperDuper.fit, your_data, ResNet50, SGDOptimizer)# conquer world here
这些库和示例令我们想起了熟悉标准软件及模块,标准软件中通常可以获取简洁的 API 和抽象。
例如 Request 库的使用展示如下:
>>> r = requests.get('https://api.github.com/user', auth=('user', 'pass'))
>>> r.status_code200
酷!这些库和框架的开发者背负起理解用户 Query 字符串、url、GET/POST 请求、HTTP 连接等的大量需求,将复杂度隐藏在几行代码后面。这就是我们熟悉与期待的。
然而,神经网络不一样,它们并不是现成的技术。我在 2016 年撰写的一篇博客中试图说明这一点,在那篇文章中我认为反向传播是「leaky abstraction」,然而现在的情况似乎更加糟糕了。
Backprop + SGD 不是魔法,无法让你的网络运行;批归一化也无法奇迹般地使网络更快收敛;RNN 也不能神奇地让你直接处理文本。不要因为你可以将自己的问题表示为强化学习,就认为你应该这么做。如果你坚持在不理解技术原理的情况下去使用它,那么你很可能失败。
2. 背着我不 work 的神经网络
当你破坏代码或者错误配置代码时,你通常会得到某种异常。你在原本应该插入字符串的地方插入了整数;导入出错;该关键字不存在……此外,为了方便 debug,你还很可能为某个功能创建单元测试。
这还只是开始。训练神经网络时,有可能所有代码的句法都正确,但整个训练就是不对。可能问题出现在逻辑性(而不是句法),且很难通过单元测试找出来。
例如,你尝试截损失度而不是梯度,这会导致训练期间的异常值被忽视,但语法或维度等检测都不会出现错误。又或者,你弄错了正则化强度、学习率、衰减率、模型大小等的设置,那么幸运的话网络会报错,然而大部分时候它会继续训练,并默默地变糟……
因此,「快速激烈」的神经网络训练方式没有用,只会导致困难。现在,这些经验性困难是使神经网络正常运行的拦路虎,你需要更加周密详尽地调试网络才能减少困难,需要大量可视化来了解每一件事。
在我的经验中,深度学习成功的重要因素是耐心和注重细节。
如何解决
基于以上两点事实,我开发了一套将神经网络应用于新问题的特定流程。该流程严肃地执行了上述两项原则:耐心和注重细节。
具体来说,它按照从简单到复杂的方式来构建,我们在每一步都对即将发生的事作出准确的假设,然后用实验来验证假设或者调查直到发现问题。我们试图尽力阻止大量「未经验证的」复杂性一次来袭,这有可能导致永远也找不到的 bug/错误配置。如果让你像训练神经网络那样写它的代码,你会想使用非常小的学习率,然后猜测,再在每次迭代后评估整个测试集。
1. 梳理数据
训练神经网络的第一步是不要碰代码,先彻底检查自己的数据。这一步非常关键。我喜欢用大量时间浏览数千个样本,理解它们的分布,寻找其中的模式。幸运的是,人类大脑很擅长做这件事。有一次,我发现数据中包含重复的样本,还有一次我发现了损坏的图像/标签。我会查找数据不均衡和偏差。我通常还会注意自己的数据分类过程,它会揭示我们最终探索的架构。比如,只需要局部特征就够了还是需要全局语境?标签噪声多大?
此外,由于神经网络是数据集的压缩/编译版本,你能够查看网络(错误)预测,理解预测从哪里来。如果网络预测与你在数据中发现的不一致,那么一定是什么地方出问题了。
在你对数据有了一些感知之后,你可以写一些简单的代码来搜索/过滤/排序标签类型、标注规模、标注数量等,并沿任意轴可视化其分布和异常值。异常值通常能够揭示数据质量或预处理中的 bug。
2. 配置端到端训练/评估架构、获取基线结果
现在我们已经理解了数据,那我们就可以开始构建高大上的多尺度 ASPP FPN ResNet 并训练强大的模型了吗?当然还不到时候,这是一个充满荆棘的道路。我们下一步需要构建一个完整的训练、评估架构,并通过一系列实验确定我们对准确率的置信度。
在这个阶段,你们最好选择一些不会出错的简单模型,例如线性分类器或非常精简的 ConvNet 等。我们希望训练这些模型,并可视化训练损失、模型预测和其它度量指标(例如准确率)。当然在这个过程中,我们还需要基于一些明确假设,从而执行一系列对照实验(ablation experiments)。
该阶段的一些技巧与注意事项:
3. 过拟合
到了这个阶段,我们应该对数据集有所了解了,而且有了完整的训练+评估流程。对于任何给定的模型,我们可以计算出我们信任的度量。而且还为独立于输入的基线准备了性能,一些 dumb 基线的性能(最好超过这些),我们人类的表现有大致的了解(并希望达到这一点)。现在,我们已经为迭代一个好的模型做好了准备。
我准备用来寻找好模型的方法有两个阶段:首先获得足够大的模型,这样它能够过拟合(即关注训练损失),然后对其进行适当的正则化(弃掉一些训练损失以改进验证损失)。我喜欢这两个阶段的原因是,如果我们不能用任何模型实现较低的误差率,则可能再次表明一些问题、bug 和配置错误。
该阶段的一些技巧与注意事项:
4. 正则化
理想情况下,我们现在至少有了一个拟合训练集的大模型。现在是时候对它进行正则化,并通过放弃一些训练准确率来提升验证准确率了。技巧包括:
最后,为了更加确保网络是个合理的分类器,我喜欢可视化网络第一层的权重,确保自己获得了有意义的边缘。如果第一层的滤波器看起来像噪声,那需要去掉些东西。类似地,网络内的激活函数有时候也会揭示出一些问题。
5. 精调
现在你应该位于数据集一环,探索取得较低验证损失的架构模型空间。这一步的一些技巧包括:
6. 最后的压榨
一旦你找到最好的架构类型和超参数,依然可以使用更多的技巧让系统变得更好:
结论
一旦你做到了这些,你就具备了成功的所有要素:对神经网络、数据集和问题有了足够深的了解,配置好了完整的训练/评估体系,取得高置信度的准确率,逐渐探索更复杂的模型,提升每一步的表现。现在万事俱备,就可以去读大量论文,尝试大量实验并取得 SOTA 结果了。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
“用户旅程分析”概念 用户旅程图又叫做用户体验地图,它是用于描述用户在与产品或服务互动的过程中所经历的各个阶段、触点和情 ...
2025-01-22在竞争激烈的商业世界中,竞品分析对于企业的发展至关重要。今天,我们就来详细聊聊数据分析师写竞品分析的那些事儿。 一、明确 ...
2025-01-22在数据分析领域,Excel作为一种普及率极高且功能强大的工具,无疑为无数专业人士提供了便捷的解决方案。尽管Excel自带了丰富的功 ...
2025-01-17在这个瞬息万变的时代,许多人都在寻找能让他们脱颖而出的职业。而数据分析师,作为大数据和人工智能时代的热门职业,自然吸引了 ...
2025-01-14Python作为一门功能强大的编程语言,已经成为数据分析和可视化领域的重要工具。无论你是数据分析的新手,还是经验丰富的专业人士 ...
2025-01-10完全靠数据决策,真的靠谱吗? 最近几年,“数据驱动”成了商界最火的关键词之一,但靠数据就能走天下?其实不然!那些真正成功 ...
2025-01-09SparkSQL 结构化数据处理流程及原理是什么?Spark SQL 可以使用现有的Hive元存储、SerDes 和 UDF。它可以使用 JDBC/ODB ...
2025-01-09在如今这个信息爆炸的时代,数据已然成为企业的生命线。无论是科技公司还是传统行业,数据分析正在深刻地影响着商业决策以及未来 ...
2025-01-08“数据为王”相信大家都听说过。当前,数据信息不再仅仅是传递的媒介,它成为了驱动经济发展的新燃料。对于企业而言,数据指标体 ...
2025-01-07在职场中,当你遇到问题的时候,如果感到无从下手,或者抓不到重点,可能是因为你掌握的思维模型不够多。 一个好用的思维模型, ...
2025-01-06在现代企业中,数据分析师扮演着至关重要的角色。每天都有大量数据涌入,从社交媒体到交易平台,数据以空前的速度和规模生成。面 ...
2025-01-06在职场中,许多言辞并非表面意思那么简单,有时需要听懂背后的“潜台词”。尤其在数据分析的领域里,掌握常用术语就像掌握一门新 ...
2025-01-04在当今信息化社会,数据分析已成为各行各业的核心驱动力。它不仅仅是对数字进行整理与计算,而是在数据的海洋中探寻规律,从而指 ...
2025-01-03又到一年年终时,各位打工人也迎来了展示成果的关键时刻 —— 年终述职。一份出色的年终述职报告,不仅能全面呈现你的工作价值, ...
2025-01-03在竞争激烈的商业世界中,竞品分析对于企业的发展至关重要。今天,我们就来详细聊聊数据分析师写竞品分析的那些事儿。 一、明确 ...
2025-01-03在数据分析的江湖里,有两个阵营总是争论不休。一派信奉“大即是美”,认为数据越多越好;另一派坚守“小而精”,力挺质量胜于规 ...
2025-01-02数据分析是一个复杂且多维度的过程,从数据收集到分析结果应用,每一步都是对信息的提炼与升华。可视化分析结果,以图表的形式展 ...
2025-01-02在当今的数字化时代,数据分析师扮演着一个至关重要的角色。他们如同现代企业的“解密专家”,通过解析数据为企业提供决策支持。 ...
2025-01-02数据分析报告至关重要 一份高质量的数据分析报告不仅能够揭示数据背后的真相,还能为企业决策者提供有价值的洞察和建议。 年薪 ...
2024-12-31数据分析,听起来好像是技术大咖的专属技能,但其实是一项人人都能学会的职场硬核能力!今天,我们来聊聊数据分析的核心流程,拆 ...
2024-12-31