写点什么

通过折纸视角理解神经网络:ReLU 网络的几何直观与实验探索

作者:qife
  • 2025-07-18
    福建
  • 本文字数:791 字

    阅读完需:约 3 分钟

从折纸视角理解神经网络

虽然我一直对在安全对抗场景中使用机器学习持怀疑态度,但 AI/ML 的重要性确实让我感到数学硕士(以及未完成的数学博士)学位并非徒劳。我推崇"自下而上"的数学方法:通过大量实例实验形成猜想。由于我在纯形式化推理方面存在严重缺陷,且数学思维主要基于几何直觉,因此常通过实验来建立认知。


多年来,我一直想更好地理解深度神经网络的实际运作机制。面对"无法理解神经网络"和"发现识别狗的神经元"这两种极端观点,我都难以认同。今年初,我终于开始用纸笔研究 ReLU 神经网络的数据处理过程——选择 ReLU 是因为它们既实用又易于理解,是理想的入门案例。

ReLU 神经元的几何表现

我们首先研究二维 ReLU 神经元:函数 f(x, y) = max(ax + by + c, 0)。其图像如同带有折痕的纸张:


  • 参数 a 控制 x 轴方向的倾斜度

  • 参数 b 控制 y 轴方向的倾斜度

  • 参数 c 决定平面抬升高度


这些参数共同决定了平面的折叠方式,将空间划分为两个半平面:一侧输出为零,另一侧呈线性变化。

单层网络的学习过程

构建包含 10 个 ReLU 单元的单层网络时,每个神经元都有独立的(a,b,c)参数。训练过程就是调整这些"折痕"的位置,使各区域的仿射函数组合逼近目标输出。我们以圆形图像拟合为例,观察网络如何逐步调整折痕:


(原始图像链接)


当增加到 500 个神经元时,拟合效果显著提升,但出现有趣现象:


  1. 优化过程中出现明显"脉冲"模式(可能与 Adam 优化器有关)

  2. 大量折痕会自发形成簇群(尽管圆形具有旋转对称性)

  3. 学习锐利边缘比预期困难(可能是正则化限制了权重)

人脸图像的拟合实验

用相同网络拟合涂满防晒霜的人脸照片时,重建效果呈现出明显的"折纸"质感。这验证了神经网络通过分段线性组合逼近复杂函数的本质。

待探索方向

  1. 网络深度增加会产生什么影响?

  2. 分类任务与连续值预测有何本质差异?

  3. 如何通过这些实验理解泛化、过拟合等问题?


(后续内容将持续更新实验发现)更多精彩内容 请关注我的个人公众号 公众号(办公 AI 智能小助手)公众号二维码


办公AI智能小助手


用户头像

qife

关注

还未添加个人签名 2021-05-19 加入

还未添加个人简介

评论

发布
暂无评论
通过折纸视角理解神经网络:ReLU网络的几何直观与实验探索_神经网络_qife_InfoQ写作社区