神经网络可能不再需要激活函数?Layer Normalization也有非线性表达!-人工智能

首页 2024-07-02 22:26:34

AIxiv专栏是本网站发布学术技术内容的专栏。在过去的几年里,AIxiv专栏收到了2000多篇报道,覆盖了世界各大高校和企业的顶级实验室,有效地促进了学术交流和传播。如果您有优秀的工作要分享,请提交或联系报告。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

本文作者均来自北京航空航天大学人工智能学院和国家重点软件环境复杂重点实验室副教授黄磊。倪云浩是研究生,郭宇新是大三学生,贾俊龙是研究生,通讯作者是黄磊副教授(主页:https://huangleibuaa.github.io/)

神经网络通常由线性层、非线性层(激活函数)和标准化层三部分组成。线性层是网络参数的主要位置。非线性层提高了神经网络的表达能力,而标准化层(Normalization)它主要用于稳定和加速神经网络训练,很少有工作来研究它们的表达能力,例如,Batch 以Normalization为例,在预测阶段可以认为是线性变换,在表达方面没有引入非线性变换。因此,研究人员普遍认为Normalization不能提高模型的表达能力。

然而,北京航空航天大学人工智能学院黄磊最近在ICML2024上发表了一篇论文《On the Nonlinearity of Layer Normalization》指出层标准化(Layer Normlization,LN)RMSNorm的计算退化版具有非线性表达能力,并详细讨论了LN的通用近似分类能力。

  • 论文地址:https://arxiv.org/abs/2406.01255

本文数学证明了LN的非线性。并提出了简单的神经网络LN,仅包括线性层和LN-Net,理论上,在足够深的情况下,给定的样本和样本类别可以任意分类。这一发现打破了人们将各种Normalization视为不具备拟合能力的线性变换的惯性认知,而非线性层和标准化层不再是相互交叉的神经网络模块。

目前,随着transformer的广泛应用,LN作为固定组成部分,已成为一种广泛使用的技术。该研究可能为未来神经网络架构提供新的理论依据,在这个方向上具有开创性意义。

数学发现LN非线性数学

对非线性研究而言,本文并没有直接讨论LN本身的分析性质,而是更加实用地探索了LN与数据之间的交互。

作者首先提出了SSR的统计量(Sum of Squares Ratio),描述两类样本的线性可分性。SSR也会在样本线性变换时发生变化。因此,在所有线性变换下,将样本对应的最小SSR定义为LSSR。文章指出,LSSR越小,样本之间的线性可分性越强。

然而,当样本施加的线性变化被“线性变化”取代时-LN-在线性转换结构中,发现新的SSR可能低于LSSR,这验证了LN的非线性表达——如果LN是线性的,那么“线性转换”-LN-线性变换也是线性的,得到的新SSR不能低于LSSR。

LN在分类问题上的任何可分性

为了进一步研究,作者将LN分为两个步骤:集中化(centering)和尺度缩放(scaling)。集中化在数学上是一种线性转换,因此LN的非线性主要存在于规模缩放操作中(本文也称为球面投影,这是RMSNorm执行的操作)。以最简单的线性不可分割的差异或数据为例,作者通过线性变换和球面投影正确分类了这四点。

更一般地说,作者提出了利用LN和线性层对任何数字样本进行正确分类的算法,探讨了LN-Net的通用近似能力。

通过构造算法步骤,将神经网络逐层转换为类似样本合并问题,将通用近似分类问题转换为样本合并问题,并指出任何标签的m样本都可以构建O(m)层的LN-Net,正确分类这m个样本。这种构造方法也为计算神经网络的VC维提供了新的思路。作者指出,在此基础上,可以推断出L层标准化层的LN-Net,VC维度至少有L 2。?

LN非线性强化和实际应用

在证明LN非线性的基础上,作者提出了分组层标准化技术,以进一步加强LN非线性的实际应用(LN-G)。在数学上,作者从海森矩阵的角度预测分组可以增强LN的非线性,并在实验中初步探测LN-G的表达能力。

作者指出,在CIFAR-10随机标签数据集中,通常的线性层模型的准确性不超过20%;由线性层和LN-G组成的神经网络(不引入传统的激活函数作为非线性单元)可以获得55.85%的精度。
作者进一步探讨了LN-G在无激活函数的卷积神经网络的分类效果,并证明了这种无激活函数的神经网络具有很强的拟合能力。此外,作者将GN作用于MLP上的整个样本(将单个样本拉伸到一维向量,然后进行GN),并提出了LN-G-Position。LNNet用于没有非线性层的ResNet网络-G-在CIFAR-10数据集中,Position方法可以获得86.66%的精度,这反映了LN。-G-Position表达能力强。
接下来,作者在Transformer上进行了实验探究,用LN取代了原来的LN-G,根据实验结果,发现分组层标准化可以有效地提高Transformer网络的性能,证明了这一理论在真实网络中的可行性。

结论与展望

作者在《On the Nonlinearity of Layer Normalization》在论文中,理论上首次证明了只包含线性层和LN模型的通用分类能力,以及给定特定深度模型的VC维下界。最重要的意义是分析传统深度神经网络的表达能力,向广泛使用的现代真实网络迈出一大步,这可能会为未来的神经网络结构设计提供新的思路。

神经网络可能不再需要激活函数。Layer Normalization也有非线性表达!详情请关注其他相关文章!


p

最新文章

  • 高效备份数据库,首选pg_dump命令!

  • 神经网络可能不再需要激活函数?Layer Normalization也有非线性表达!-人工智能

  • 高效复制粘贴:CAD图纸间对象迁移技巧以下是对这个标题的详细解释和说明:这个标题以简洁、明了的方式概括了CAD图纸之间复制和粘贴对象的基本方法,并使用了“高效”和“迁移技巧”这两个词汇来强调其操作的有效性和技巧性。这样的标题既符合字数要求,又能够吸引读者的注意力,引导他们进一步了解和学习相关的CAD操作技巧。在实际操作中,CAD图纸之间的对象复制和粘贴主要通过CAD软件的相关命令和功能实现。具体步骤如下:1. 打开包含要复制对象的CAD图纸。2. 使用选择工具(如鼠标框选或点选)选择要复制的对象。3. 在CAD软件的工具栏或菜单中找到“复制”或“剪切”命令,并执行该命令。此时,选定的对象将被复制到剪贴板或CAD软件的内部缓冲

  • 闲鱼总裁季山:我们不仅要做二手,还要错过 AI 和国际化-IT产业

  • 电脑服务器端口全攻略,一网打尽关键端口!

  • 特斯拉公布 Cybertruck“电池护照”:装载1344个电池,总容量高达123kWh!-IT行业

  • 精通服务器系统:详细部署与配置教程

  • 相关文章

  • 闲鱼总裁季山:我们不仅要做二手,还要错过 AI 和国际化-IT产业

  • 特斯拉公布 Cybertruck“电池护照”:装载1344个电池,总容量高达123kWh!-IT行业

  • 管理员禁用任务管理器怎么办?常见问题

  • 联想笔记本如何连接显示器-常见问题

  • 重装 microsoft store 四种方法:windows powershell:所有使用命令重新注册 microsoft store 应用程序。sfc 包括自动修复 microsoft store 包括文件在内的损坏文件。重置 microsoft store:通过设置应用程序重置 microsoft store。重新注册 microsoft store:通过注册表编辑器和命令重新注册 microsoft store。

    如何重装 Microsoft Store

    Microsoft Store 是 Window

  • 联想笔记本如何打开vt模式-常见问题

  • 华为笔记本电脑如何截图-常见问题

  • 如何取消Win11隐藏文件-常见问题

  • Win10文件夹不能加密怎么办?常见问题

  • Win10系统安装选版推荐-常见问题

  • Win11补丁更新下载卡0%怎么办?常见问题

  • 如何使用CPU-Z检查内存颗粒-常见问题