有个经典的思维游戏:你看到水面泛起一圈圈涟漪,能不能倒推出石头是从哪里扔进去的?听起来不难,但真要让计算机算清楚,这属于数学里最折磨人的问题之一——逆偏微分方程。宾夕法尼亚大学的研究团队最近干了一件事:他们不堆算力,而是改数学本身,给AI加了一层叫"mollifier"的缓冲垫,让这类难题变得稳定多了。
这事儿值得细说,因为它戳中了一个长期被忽视的矛盾:我们总以为AI进步靠显卡堆得多高,但有些科学问题,数学底子不打好,算力再多也是白搭。
![]()
先搞清楚:什么是逆问题?
正问题像做饭:你知道菜谱(规律),手头有食材(初始条件),算出能做出什么菜(结果)。逆问题则是反过来的——你尝了口菜,要倒推出厨师用了什么火候、什么调料。材料科学教授Vivek Shenoy打了个比方:"就像看着池塘里的涟漪,回头找那颗石头掉在哪儿。"
偏微分方程(PDE)是描述这类变化的数学工具。正PDE预测未来:给定今天的天气状态,算明天会不会下雨。逆PDE则是考古: given 现在的天气数据,反推三天前哪个气旋在捣鬼。
后者难在哪儿?噪声。现实世界没有干净的数据,传感器会抖,测量有误差,而逆问题对这些噪音极其敏感——输入差一点点,输出能跑偏十万八千里。数学上这叫"不适定性",意思是问题本身在问一个答案不唯一、或者极不稳定的东西。
AI以前怎么碰钉子的
深度学习火起来之后,科学家自然想:能不能训练个神经网络,让它学会从结果反推原因?试过,但效果参差。
核心困境是:神经网络擅长找模式,但逆PDE需要的不是模式识别,而是严格的数学约束。你喂给它一万组"涟漪-石头位置"的样本,它能记住常见情况,但遇到没见过的噪声分布,立刻翻车。更麻烦的是,传统方法为了保证稳定,往往要牺牲精度,或者算到天荒地老。
研究团队里的博士生Vinayak Vinayak点破了行业的惯性:"现代AI的进步往往靠堆算力。但有些科学挑战需要更好的数学,不只是更多的计算。"
这话听着像吐槽,其实是方法论的分野。过去十年,AI领域的默认路径是"规模即正义"——更多数据、更大模型、更强芯片。但逆PDE这类问题有个特性:它不是数据不够,而是数学结构本身在捣乱。再强的显卡也解不了一个数学上就不稳定的问题。
"Mollifier Layers"是什么操作
团队的核心创新是引入了一层叫"mollifier"的数学结构。这个词来自分析学,原意是一种平滑函数,能把粗糙的东西磨得圆润。他们的做法是:在神经网络的特定位置插入这些平滑层,主动过滤掉高频噪声,同时保留关键信号。
具体技术细节发表在《Transactions on Machine Learning Research》上,将在NeurIPS 2026会议展示。简单说,这不是在模型末端加个去噪滤镜,而是把平滑操作嵌入到学习过程的数学骨架里。好处是双重的:计算更稳定,而且需要的算力大幅下降。
这里有个反直觉的点:他们不是在让AI"更聪明",而是在让问题"更懂事"。通过重新定义损失函数和梯度传播的数学形式,他们把原本病态的问题,改造成神经网络能啃动的形状。
为什么遗传学很需要这个
论文里举了个具体场景:染色质动力学。染色质是DNA在细胞核里的折叠状态,它的三维结构决定了哪些基因被打开、哪些被关闭。但直接观测这个结构极其困难——你能在显微镜下看到一团乱麻,但不知道它是怎么折叠成这样的。
逆PDE在这里的角色是: given 你能测到的有限数据(比如某些位点之间的距离),反推出整个三维构象。这直接关系到疾病研究——很多癌症和遗传病,根源就是染色质折叠出了错。
老方法的痛点在于,生物数据 noisy 得一塌糊涂。细胞里的环境复杂,测量技术本身也有局限,传统逆问题解法要么不稳定,要么慢到没法用。Mollifier Layers的平滑特性,正好对上这个需求。
天气预测是另一个战场
数值天气预报本质上也是逆问题。气象卫星和地面站给你现在的温度、气压、湿度分布,你要反推大气方程的初始状态,才能往前预测。这个"数据同化"过程,计算量占整个预报系统的很大一部分。
更稳定的逆问题求解器,意味着能用更少的计算资源达到同样精度,或者在同样资源下用更细的网格、更长的预报时效。考虑到全球气象计算的能耗已经是个环境问题,这种"数学节能"路线比单纯堆芯片更可持续。
这个方法论的微妙之处
值得玩味的是研究团队的选择:他们没发Nature、Science,而是选了TMLR(Transactions on Machine Learning Research)。这是个相对新的期刊,主打快速评审和可复现性,在机器学习社区口碑不错,但影响因子还没卷上去。
这个选择本身透露了点信息:他们可能更在意方法被快速验证和采用,而不是追逐顶刊的曝光。对于一项偏数学基础的工作,这倒是合理策略——真有用的数学工具,传播速度不依赖期刊等级。
另一个细节是作者排序。论文标注了"co-first author",说明Vinayak Vinayak和另一位研究者贡献相当。在AI论文动辄几十上百作者的时代,这种小团队、清晰分工的模式反而少见。也可能正因为团队精简,才能做这种偏数学、需要深度推导的工作,而不是拼工程规模。
还没解决的,以及没说的
论文里没有提的是:这个方法对哪类逆PDE最有效?Mollifier的平滑参数怎么调?有没有场景是平滑过度反而丢信息的?这些可能是后续工作要填的坑。
另外,"计算需求大幅降低"具体是多少?原文只说"far less computationally demanding",但没给数字。是十倍、百倍,还是某个常数因子?对于实际采用者来说,这个量级很关键。
还有一个悬而未决的问题:这种方法和物理信息神经网络(PINNs)是什么关系?后者是另一类把物理约束嵌入AI的热门路线。两者是竞争、互补,还是可以在不同场景各显神通?论文里没有直接讨论,但社区迟早要比较。
一点个人观察
这个研究让我想起一个老问题:AI到底是在替代科学家的直觉,还是在放大他们的工具箱?Mollifier Layers的答案是后者——它没有让神经网络自己去"悟"出逆问题的解法,而是人类数学家先设计好平滑结构,再让AI在这个更友好的框架里学习。
这种"人机协作"模式,可能比纯端到端的黑箱模型更适合硬科学。毕竟,在染色质折叠或者大气方程这类有明确物理约束的领域,完全抛弃先验知识让AI从零学起,既浪费也不可靠。
当然,这也意味着这个方法的上限受限于人类对问题数学结构的理解。如果某个逆问题的病态性来自更深层的几何特性,mollifier可能不够,需要别的数学工具。但至少在这个特定问题上,他们找到了一个优雅的平衡点。
最后,对于普通读者,这件事的真正启示或许是:下次看到"AI突破"的新闻,可以多问一句——这是靠堆算力,还是靠改数学?两者的含金量,很不一样。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.