通过折纸视角理解神经网络:ReLU 网络的几何直观与实验探索
从折纸视角理解神经网络
虽然我一直对在安全对抗场景中使用机器学习持怀疑态度,但 AI/ML 的重要性确实让我感到数学硕士(以及未完成的数学博士)学位并非徒劳。我推崇"自下而上"的数学方法:通过大量实例实验形成猜想。由于我在纯形式化推理方面存在严重缺陷,且数学思维主要基于几何直觉,因此常通过实验来建立认知。
多年来,我一直想更好地理解深度神经网络的实际运作机制。面对"无法理解神经网络"和"发现识别狗的神经元"这两种极端观点,我都难以认同。今年初,我终于开始用纸笔研究 ReLU 神经网络的数据处理过程——选择 ReLU 是因为它们既实用又易于理解,是理想的入门案例。
ReLU 神经元的几何表现
我们首先研究二维 ReLU 神经元:函数 f(x, y) = max(ax + by + c, 0)。其图像如同带有折痕的纸张:
参数 a 控制 x 轴方向的倾斜度
参数 b 控制 y 轴方向的倾斜度
参数 c 决定平面抬升高度
这些参数共同决定了平面的折叠方式,将空间划分为两个半平面:一侧输出为零,另一侧呈线性变化。
单层网络的学习过程
构建包含 10 个 ReLU 单元的单层网络时,每个神经元都有独立的(a,b,c)参数。训练过程就是调整这些"折痕"的位置,使各区域的仿射函数组合逼近目标输出。我们以圆形图像拟合为例,观察网络如何逐步调整折痕:
(原始图像链接)
当增加到 500 个神经元时,拟合效果显著提升,但出现有趣现象:
优化过程中出现明显"脉冲"模式(可能与 Adam 优化器有关)
大量折痕会自发形成簇群(尽管圆形具有旋转对称性)
学习锐利边缘比预期困难(可能是正则化限制了权重)
人脸图像的拟合实验
用相同网络拟合涂满防晒霜的人脸照片时,重建效果呈现出明显的"折纸"质感。这验证了神经网络通过分段线性组合逼近复杂函数的本质。
待探索方向
网络深度增加会产生什么影响?
分类任务与连续值预测有何本质差异?
如何通过这些实验理解泛化、过拟合等问题?
(后续内容将持续更新实验发现)更多精彩内容 请关注我的个人公众号 公众号(办公 AI 智能小助手)公众号二维码

评论