ChatGPT、Claude、Gemini——这些你天天用的模型,底层跑着一个微积分课本里的泰勒级数。没人告诉你这件事,因为说出来就不酷了。
Softmax函数,就是那个把 logits 变成概率分布的老熟人,本质上是个伪装成"简单操作"的无穷级数。开发者们把它当黑盒用了八年,直到有人把证明拍在桌上。
作者的原话很直接:「我想给你看点东西,它就藏在眼皮底下好几年。」这种"公开的秘密"在AI圈不算新鲜。就像你手机里的计算器,没人关心它怎么算 sin(x),能用就行。
但区别是,计算器不会告诉你"我是用泰勒展开的"。而 Softmax 连这层提示都没有——它被包装成一个"指数归一化"的简洁概念,让一代工程师误以为自己在处理离散概率,实际上是在跟无穷级数打交道。
这个发现对训练有影响吗?短期内没有。但有个细节很有意思:当你在用 FP16 精度跑大模型时,Softmax 的级数截断误差会被放大,而大多数框架的优化手册里,根本不提这茬。用户以为的"精度问题",有时候只是数学课本第7页的内容没读完。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.