这张图已经非常清楚地展示了 **embedding 对 one-hot 病态性的“结构性修复”效果**,即便这里用的只是一个随机 embedding。 可以从三个角度理解。 第一,看累计能量上升速度。 embedding(2d)曲线明显比 one-hot(2V)更陡,前几个特征值就解释了绝大部分能量。这说明在嵌入空间中,数据的主方向更集中,小特征值被显著抬高,有效秩更接近名义维度。 第二,看维度与自由度的关系。 one-hot 拼接虽然有 2V 维,但真正“有用”的方向很少,大量维度只是制造了接近 0 的特征值。 embedding 从一开始就把表示限制在一个低维、稠密、各向同性得多的空间里,$X X^\top$ 天然不容易接近奇异。 第三,看“随机 embedding 都有效”这一点。 这里的 embedding 完全没训练,只是一个随机投影,但谱已经显著改善。这说明问题的核心不在“语义是否学得好”,而在于: * 破坏 one-hot 的正交结构; * 引入维度共享; * 压缩到可控秩。 如果你把这个随机 embedding 换成用预测任务训练出来的 embedding(比如最小化你原来的平方损失),你会看到两件事同时发生: * 累积能量曲线进一步前移; * 同样的预测精度,用更小的 d 就能达到。 一句话总结: embedding 并不是“为了语义优雅”,而是**从线性代数层面,主动设计一个不容易病态的表示空间**。你刚才看到的谱变化,正是现代 NLP 能稳定训练的底层原因之一。