关于大家都想知道抛弃归一化,深度学习模型准确率却达到了前所未有的水平和残差如何计算的题是怎么回事吗?听小编为各位来讲解一下。
深度学习不再需要标准化。
我们知道,在传递给机器学习模型的数据中,我们需要对数据进行归一化。
数据归一化后,数据被“压扁”为统一的区间,输出范围缩小到0到1之间。人们通常认为经过这样的操作,寻找最优解的过程会明显变得更加平滑,模型将更容易正确地收敛到水平。
然而,这种“刻板印象”最近受到了挑战。DeepMind的研究人员提出了一种不需要归一化的深度学习模型NFNet,但在大规模图像分类任务上却达到了业界最好的水平。
与其他模型相比,ImageNet分类精度和训练时间。
DeepMind研究科学家、论文第一作者AndrewBrock表示“我们专注于开发可快速训练的高性能架构,并展示了一种简单的技术,使我们能够训练大批量和大规模数据增强.训练的同时达到SOTA水平。”
该研究一经提交,就引起了人们的关注。
论文链接
DeepMind还发布了该模型的实现
NFNet是一个没有归一化的ResNet网络。具体来说,研究贡献包括以下内容
提出一种自适应梯度剪枝方法,根据梯度范数与参数范数的单位比来裁剪梯度。研究人员证明,AGC可以训练具有更大批量和大规模数据增强的非标准化网络。
设计了名为“Normalizer-FreeResNets”的新网络,该网络在ImageNet验证集上的各种训练延迟范围内实现了最先进的结果。NFNet-F1模型实现了与EfficientNet-B7类似的准确率,同时训练速度提高了87倍,而最大版本的NFNet模型设定了新的SOTA级别,在无需额外数据的情况下实现了865%的top-1准确率。
当在包含3亿张标记图像的大型私有数据集上进行预训练,然后针对ImageNet进行微调时,NFNet可以实现比批量归一化模型更高的Top-1精度高达892。
研究方法
在没有标准化的情况下,许多研究人员尝试训练深度ResNet,通过恢复批量标准化的优势来提高其准确性。这些研究大多数通过引入小常数或可学习标量来抑制初始化期间残差分支上的激活规模。
这项DeepMind研究采用并建立在“Normalizer-FreeResNet”的基础上,这是一种预激活的ResNet,可以在没有归一化层的情况下进行训练以实现训练和测试准确性。
NF-ResNet使用以下形式的残差块
其中,h_i表示第i个残差块的输入,f_i表示第i个残差分支计算的函数。
用于高效大批量训练的自适应梯度裁剪
为了将NF-ResNet扩展到更大的批量大小,研究人员探索了一系列梯度裁剪策略。梯度裁剪经常用于语言建模中以稳定训练。最近的一些研究表明,与梯度下降相比,梯度裁剪允许以更高的学习率进行训练,从而实现更快的收敛。这对于较差的损失情况或大批量训练尤其重要。因为在这些情况下,最优学习率受到最大稳定学习率的。因此,本研究假设梯度裁剪应该有助于将NF-ResNet有效地扩展到大批量设置。
该研究使用称为AGC的梯度裁剪方法,探索了实现SOTA精度和训练速度的无Normalizer架构的设计。
目前图像分类任务的SOTA大部分是通过TanLe,2019的EfficientNet系列模型实现的。该系列的模型经过优化,最大限度地提高了测试精度,同时最小化了参数数量和FLOP计数,但其较低的理论计算复杂度并没有转化为训练速度的提高。
本研究通过手动搜索设计指南来探索模型设计的空间,与设备上的实际训练延迟相比,这些设计指南可以改进ImageNet上的保留top-1Pareto前沿。它们对保留精度的影响如下表2所示
实验
表3显示了六种不同的NFNet与其他模型在模型大小、训练延迟和ImageNet验证准确性方面的比较。NFNets-F5达到了860%的SOTAtop-1准确率,相比EfficientNet-B8有所提升;NFNet-F1的测试精度与EfficientNet-B7相当,而训练速度提高了87倍;NFNet-F6+SAM达到了865%的top-1准确率。
ImageNet数据集上NFNet与其他模型的准确性比较。延迟是指在TPU或GPU上运行单个完整训练步骤所需的毫秒数。
此外,研究人员使用3亿张带注释图像的数据集预训练了NFNet的变体,并针对ImageNet对其进行了微调。最终,NFNet-F4+在ImageNet上取得了892的top-1准确率。这是迄今为止通过额外训练数据实现的第二高验证准确度,仅次于当前最强大的半监督学习基线Pham等人,2020年以及通过迁移学习实现的最高准确度。
表5使用附加数据进行大规模预训练后的ImageNet模型传输性能比较。
AndrewBrock表示,虽然我们对神经网络信号传输和训练规则的理解还有很多方向有待探索,但非归一化方法为人们提供了强有力的参考,并展示了这种深刻理解的发展。能力可以有效提高生产环境的效率。
本篇文章讲解关于抛弃归一化,深度学习模型准确率却达到了前所未有的水平和残差如何计算的这类内容,希望能帮助到诸位网友。
No Comment