Loss (BCE):二元交叉熵损失。越小越好。理论下界 0,越接近 0 预测越准。
Accuracy:分类正确率。0–1 之间的比例,越接近 1 越好。
|dW| Frobenius:权重梯度的 Frobenius 范数。
是矩阵"长度"的推广:
。不是逐元素绝对值之和,而是所有元素平方和的平方根,类似向量的 L2 范数。反映梯度整体的"大小",训练初期会冲一冲峰值,训练稳定后衰减。
|db| / |dz|:偏置 / 误差项的 L2 范数。
。同理,向量长度。
|∇θ| Frobenius:header 里的"总梯度幅度"。把所有参数梯度的 Frobenius 范数求和:
。一次前向后整体梯度有多大,决定本次 lr × 梯度 的更新步长。训练初期会冲一冲峰值,逼近最优点时衰减。**不是 L1**(L1 = |元素| 之和;本指标是 L2 / Frobenius)。
W mean:权重矩阵元素平均值。观察权重有无漂移(应基本在 0 附近)。
a mean:激活值平均。隐藏层 a1≈0.5 表示饱和;a2 反映输出概率均值。
L1 vs L2 vs Frobenius:L1 = ,L2 = ,Frobenius = L2 推广到矩阵 = 。本页面所有 |·| 范数指标都是 L2 / Frobenius。