400 128 6709

行业新闻

神经网络可能不再需要激活函数?Layer Normalization也具有非线性表达!

发布时间:2024-07-02点击次数:
神经网络可能不再需要激活函数?Layer Normalization也具有非线性表达!
AIxiv专栏是本站发布学术、技术内容的栏目。过去数年,本站AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

本文作者均来自北京航空航天大学人工智能学院和复杂关键软件环境全国重点实验室黄雷副教授团队。一作倪云昊为研一学生,二作郭宇芯为大三学生,三作贾俊龙为研二学生,通讯作者为黄雷副教授(主页:https://huangleibuaa.github.io/)

神经网络通常由三部分组成:线性层、非线性层(激活函数)和标准化层。线性层是网络参数的主要存在位置,非线性层提升神经网络的表达能力,而标准化层(Normalization)主要用于稳定和加速神经网络训练,很少有工作研究它们的表达能力,例如,以Batch Normalization为例,它在预测阶段可以认为是线性变换,从表达上并未引入非线性。因此研究人员普遍认为Normalization并不能够提升模型的表达能力。

然而,最近由北京航空航天大学人工智能学院黄雷老师团队发表在ICML2025上的论文《On the Nonlinearity of Layer Normalization》指出,层标准化(Layer Normlization,LN)以及其计算退化版本RMSNorm具有非线性表达能力,并详细讨论了LN的万能近似分类能力。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

神经网络可能不再需要激活函数?Layer Normalization也具有非线性表达!

  • 论文地址:https://arxiv.org/abs/2406.01255

该论文对LN的非线性进行了数学证明。并且提出了仅含线性层和LN的简单神经网络LN-Net,在足够深的情况下,理论上,可以任意分类给定的样本和样本类别。这一发现打破了人们将各种Normalization视为不具有拟合能力的线性变换的惯性认知,而非线性层和标准化层也不再是互不相交的神经网络模块。

目前,随着transformer的广泛使用,LN作为其中的固定组成部分,已经成为了一种普遍使用的技术,该研究在未来可能为神经网络架构提供新的理论依据,在这个方向上,具有开创性意义。

LN非线性的数学发现

对于非线性研究,文章并没有直接讨论LN本身的分析性质,而是更具有实用意义地探究了LN与数据之间的交互。

作者首先提出了统计量SSR(Sum of Squares Ratio),描述两个类别下样本的线性可分性。当对样本进行线性变换时,SSR也会发生变化。因此,定义样本在所有线性变换下对应的最小的SSR为LSSR。文章指出,当LSSR越小时,样本之间的线性可分性越强。

然而,当对样本施加的线性变化替换为“线性变换-LN-线性变换”的结构时,发现得到的新的SSR有可能低于LSSR,这验证了LN的非线性表达——如果LN是线性的,那么“线性变换-LN-线性变换”也是线性的,得到的新SSR不可能会低于LSSR。

LN在分类问题中的任意可分性

为了进一步研究,作者将LN拆分为两个步骤:中心化(centering)和尺度缩放(scaling)。中心化从数学上是一个线性变换,因此LN的非线性主要存在于尺度缩放操作当中(文章中也称之为球面投影,是RMSNorm执行的操作)。作者以最为简单的线性不可分的异或数据为例,通过线性变换和球面投影将这四个点进行了正确分类。

神经网络可能不再需要激活函数?Layer Normalization也具有非线性表达!

灵感PPT 灵感PPT

AI灵感PPT - 免费一键PPT生成工具

灵感PPT 308 查看详情 灵感PPT
更一般地,作者提出了使用LN和线性层对任意数目样本进行正确分类的算法,探究了LN-Net的万能近似能力。

神经网络可能不再需要激活函数?Layer Normalization也具有非线性表达!

通过构造算法步骤,将神经网络的逐层变换转换为同类样本合并问题,将万能近似分类问题转换为样例归并问题,并指出——对于任意标签的m个样本,都可以构造一个O(m)层的LN-Net,对这m个样本进行正确分类。这一构造方法为计算神经网络的VC维也提供了新的思路。作者指出,在此基础上,可以推断出有L个层标准化层的LN-Net,VC维至少有L+2。 

神经网络可能不再需要激活函数?Layer Normalization也具有非线性表达!

LN非线性加强与实际应用

作者在证明了LN非线性的基础上,为进一步加强LN的非线性以便于实际应用,提出了分组层标准化技术(LN-G)。作者在数学上从海森矩阵的角度预测分组能强化LN的非线性,并从实验上初步探测了LN-G的表达能力。

作者指出,在CIFAR-10随机标签数据集上,对于通常的线性层模型,其准确率不超过20%;而使用线性层和LN-G构成的神经网络(不引入传统的激活函数作为非线性单元)能够取得55.85%的准确率。
神经网络可能不再需要激活函数?Layer Normalization也具有非线性表达!
作者进一步探究了LN-G在无激活函数的卷积神经网络的分类效果,并实验上证明了这种没有激活函数的神经网络的确有着强大的拟合能力。此外,作者类比MLP上GN作用于整个样本上(将单个样本拉伸成一维向量,再进行GN),提出了LN-G-Position。在没有非线性层的ResNet网络上使用LN-G-Position方法在CIFAR-10数据集上能够取得86.66%的准确率,体现了LN-G-Position强大的表达能力。
神经网络可能不再需要激活函数?Layer Normalization也具有非线性表达!
作者接下来在Transformer上进行了实验探究,将原本的LN替换为LN-G,根据实验结果发现了分组层标准化能有效性提升Transformer网络的性能,证明了真实网络中,该理论的可行性。

结论与展望

作者在《On the Nonlinearity of Layer Normalization》论文中,理论上首次证明了仅含有线性层和LN的模型的万能分类能力以及给定特定深度的模型的VC维下界,这里面最重要的意义是将传统深度神经网络的表达能力的分析朝广泛使用的现代真实网络迈出了一大步,这一点可能为未来的神经网络结构设计提供新的思路。

以上就是神经网络可能不再需要激活函数?Layer Normalization也具有非线性表达!的详细内容,更多请关注其它相关文章!


# 工程  # 神经网络  # 翻倍  # 进行了  # 这一  # 省电  # 提出了  # type  # git  # icml2024  # 雅虎seo虾哥网络  # 番禺抖音seo优化效果  # SEO故事短篇故事  # 网站优化有什么不利  # 网站为什么要优化推广  # 贵州百度seo外包  # 常山企业推广营销哪家好  # 益阳淘宝seo优化  # 马鞍山网站建设背景  # 家居网络营销推广  # 选了  # 转换为  # 理论上  # 能为  # 为例 


相关栏目: 【 行业新闻62819 】 【 科技资讯67470


相关推荐: 从数据中心到发电站:人工智能对能源使用的影响  WHEE网页地址入口  深剖Apple Vision Pro中暗藏的“AI”  大脚攀爬者车主福利!无人机、运动相机大奖等你来挑战  推动企业数字化转型升级!“松江智造”摘世界人工智能大会重磅奖项  大语言模型的视觉天赋:GPT也能通过上下文学习解决视觉任务  如布AI口袋学习机S12 将亮相综艺节目《好样的!国货》  大模型新品出现井喷,AI产业迎来新时代  世界人工智能大会机器人同台炫技!梳理A股相关业务营收占比超50%的个股名单  AI 助手 Copilot 上线,微软 Win11 Dev 预览版 Build 23493 发布  配 3D 机器人头像,谷歌展示全新安卓 LOGO  如何对员工进行再培训以充分利用供应链管理中的人工智能创新  华为联合合作伙伴 共同发布昇腾AI大模型训推一体化解决方案  引领AI变革,九章云极DataCanvas公司重磅发布AIFS+DataPilot  美图设计室2.0使用教程  电池比 Air 2S 大 20%,大疆 Air 3 无人机现身 FCC  V社悄悄封禁使用AI生成美术素材的游戏  7/8上海 | 2025世界人工智能大会分论坛:科技与人文-共筑无障碍智能社会  Gartner发布中国企业人工智能趋势浪潮3.0  中美陷入囚徒困境,人工智能变得不可控?可参考核不扩散条约规范  陈根:AI工具为游戏软件实时3D内容助力  业内领先 四川大学华西第四医院甲状腺乳腺外科成功进入手术机器人时代  智能客服进入AI 2.0时代 容联云发布语言大模型“赤兔”  美图第二届影像节发布七款AI影像创作工具  自研4D激光雷达L1 + GPT大语言模型 宇树Unitree Go2四足机器人有啥黑科技?  【搞事】时隔4年 谷歌更新安卓logo 机器人头更饱满了  13条咒语挖掘GPT-4最大潜力,Github万星AI导师火了,网友:隔行再也不隔山了  上海发布“元宇宙关键技术攻关行动方案”,加快 AIGC 等突破  原小米 9 号员工李明打造全球首款 AI 安卓桌面机器人  吉林首例!机器人辅助下搭桥手术成功实施  【趋势周报】全球人工智能产业发展趋势:OpenAI向美国专利局提交“GPT-5”商标申请  阿里云AI绘画创作大模型通义万相发布 已开启定向邀测  基于预训练模型的金融事件分析及应用  人才智能平台转型中的人工智能的关键角色  元宇宙技术带你穿梭“大运河”,江苏书展上的数字阅读馆吸睛小读者  阿里云推出通义万相AI绘画大模型  应对算力挑战,亚马逊云科技发力AI基础设施建设  利好来了,AI再起一波?  脑机接口产业联盟发布十大脑机接口关键技术  生成式AI引路产业加速来袭,微美全息探索“AIGC+虚拟人”融合应用  GPT-4 模型架构泄露:包含 1.8 万亿参数、采用混合专家模型  英伟达CEO宣称生成式AI已迎来“划时代时刻”  外科医生的智能助手,“机器人手术”得到补充商业医保覆盖  用人工智能技术,亚马逊为用户生成产品评论摘要,帮助他们轻松选购  码刻 | 48小时Hackathon,源码见证新生代AI创新的发生  高通发布长期产品计划,为工业和企业物联网产品提供全新组合方案  人工智能即将进入Windows:企业准备好安全策略设置了吗?  视觉中国宣布推出AI灵感绘图、画面扩展功能  陈根:ChatGPT和人类合作开发机器人  讯飞星火大模型实现升级 助力通用人工智能人才培养 

400 128 6709
E-mail

contact@tlftec.cn

扫一扫,添加微信

©  云南淘乐房科技有限公司 版权所有  滇ICP备2025071560号  

云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司