MLP 训练可视化 — 2 → 4 → 1 (XOR)

超参数

学习率 lr 隐藏层 hidden 随机种子 seed Auto 步数 Step 步数

速度 50ms

说明 / 公式

2 → 4 → 1 两层感知机，sigmoid + sigmoid 激活，BCE 损失。XOR 数据。边：蓝=正 / 红=负，粗细=|w|。

Forward

Loss (BCE)

Backward

Update

Init (Xavier)

Activations

提示：变量面板右下角可拖动调整高度。

指标说明

Loss (BCE)：二元交叉熵损失。越小越好。理论下界 0，越接近 0 预测越准。

Accuracy：分类正确率。0–1 之间的比例，越接近 1 越好。

|dW| Frobenius：权重梯度的 Frobenius 范数。是矩阵"长度"的推广：。不是逐元素绝对值之和，而是所有元素平方和的平方根，类似向量的 L2 范数。反映梯度整体的"大小"，训练初期会冲一冲峰值，训练稳定后衰减。

|db| / |dz|：偏置 / 误差项的 L2 范数。。同理，向量长度。

|∇θ| Frobenius：header 里的"总梯度幅度"。把所有参数梯度的 Frobenius 范数求和：。一次前向后整体梯度有多大，决定本次 lr × 梯度的更新步长。训练初期会冲一冲峰值，逼近最优点时衰减。**不是 L1**（L1 = |元素| 之和；本指标是 L2 / Frobenius）。

W mean：权重矩阵元素平均值。观察权重有无漂移（应基本在 0 附近）。

a mean：激活值平均。隐藏层 a1≈0.5 表示饱和；a2 反映输出概率均值。

L1 vs L2 vs Frobenius：L1 = ，L2 = ，Frobenius = L2 推广到矩阵 = 。本页面所有 |·| 范数指标都是 L2 / Frobenius。

网络结构

每 step 更新

决策边界 P(y=1)

变量 (Forward · Gradients · Parameters)

绿色=正 · 红色=负

MLP 计算图 (Computation Graph · Forward)

圆=张量 · 圆角=算子 · 蓝线=参数 · 黄线=目标

网络结构

决策边界 P(y=1)

变量 (Forward · Gradients · Parameters)

MLP 计算图 (Computation Graph · Forward)

Loss (BCE) — 主指标

Accuracy

|dW1| Frobenius

|dW2| Frobenius

|db1|

|db2|

|dz1|

|dz2|

W1 mean

W2 mean

a1 mean

a2 mean