LipKAN：用 Lipschitz 可控的 KAN 拟合分子势能面

缘起

NeurIPS 2025 上有一篇论文让我印象深刻：Generalization Bounds for Kolmogorov-Arnold Networks (KANs) and Enhanced KANs with Lower Lipschitz Complexity。它的核心洞见是：KAN 的泛化能力与网络的 Lipschitz 复杂度直接相关——Lipschitz 常数越小，泛化界越紧。

这篇论文不仅给出了 KAN 的泛化界理论，还提出了一个实用的改进方案：LipKAN，通过在每层输出后施加 tanh 激活函数，从架构层面保证网络的 Lipschitz 常数可控。

我正好在做分子势能面（Potential Energy Surface, PES）拟合，而 PES 拟合有一个经典问题：非物理振荡——在数据稀疏区域，模型会"自创"出不存在的能量尖峰。LipKAN 似乎正是解决这个问题的工具。

这篇文章记录了对 C₆H₆（苯） 体系的一次完整 LipKAN 拟合尝试。最终结果：Test MAE = 1.908 kcal/mol，距化学精度（1 kcal/mol）仅差一步之遥。

为什么 PES 拟合需要 LipKAN？

精度与速度的矛盾

计算化学的核心矛盾始终是精度 vs 速度。DFT 精度够，但一次单点计算就要数分钟；分子动力学模拟需要\(10^6\)–\(10^9\)次能量评估——用 DFT 跑 MD 是不现实的。

机器学习势能面填补了这个空白：用少量高精度 QM 数据训练一个代理模型，让它"学会"分子的能量函数。传统力场速度极快但精度有限；直接从头算精度高但计算成本过高。ML 势能面正是这一矛盾的平衡点。

KAN 的优势

KAN（Kolmogorov-Arnold Network）以基函数展开替代固定激活函数：

\[ \text{MLP:} \quad x \to \sigma(Wx + b) \to x' \]

\[ \text{KAN:} \quad x \to \sum_k W_{ijk} \cdot \sigma_k(x_j) \to x' \]

其中\(\sigma_k(x)\)是可学习的基函数（如 Chebyshev 多项式、B-spline 等）。这种设计的优势在于：对物理函数中常见的低维结构（如原子对相互作用、角度弯曲项），KAN 的基函数展开天然比 MLP 的参数效率更高。

非物理振荡问题

但标准 KAN 缺乏对 Lipschitz 常数的控制。在训练数据稀疏的区域，网络的输出可能剧烈振荡——对势能面来说，这意味着出现物理上不存在的能量"尖峰"。

LipKAN 的解决方案很直接：在每层 KAN 输出后叠加 tanh 激活函数 （\(\|\tanh\|_{\text{Lip}} = 1\)），配合 L1.5 权重正则化，从架构层面保证 Lipschitz 常数可控。

LipKAN 原理

单层数学形式

LipKAN 单层的计算可以写为：

\[ x'_i = \tanh\left(\sum_j \sum_k W_{ijk} \cdot \sigma_k(x_j)\right) \]

其中\(\sigma_k(x)\)是第\(k\)个基函数，\(W_{ijk}\)是三维可训练权重张量\([d_{\text{out}} \times d_{\text{in}} \times G]\)，G 是基函数数量。tanh 作为 Lipschitz 有界激活，保证每层的输出 Lipschitz 常数\(\leq 1\)。

多层堆叠

整个网络结构为：

1	66D/172D 特征 → tanh(LipKAN) → tanh(LipKAN) → ... → identity → 1D 能量

每一层的 Lipschitz 常数为 1，总体 Lipschitz 常数不超过层数之积（上界可控）。

L1.5 正则化

L1.5 正则化直接惩罚 Lipschitz 常数的上界：

\[ \ell_{\text{L1.5}} = \sum_l \sum_i \sqrt{\sum_j \sum_k W_{l,ijk}^2} \]

物理含义：对每层的每个输出神经元，将其所有输入权重的 L2 范数求和。如果一个神经元需要依赖大量基函数来拟合某个特征组合，它的 L1.5 惩罚就会很大。这迫使网络用更少的基函数组合拟合每个输出维度，从而抑制非物理尖峰。

梯度惩罚

光滑性约束\(\|\partial E / \partial x\|^2\)是对 PES 光滑性的直接约束，无需参考力数据：

\[ \mathcal{L}_{\text{GP}} = \beta \cdot \left\|\frac{\partial E_\theta(x)}{\partial x}\right\|^2 \]

可以理解为力匹配（force matching）的廉价替代——对所有 PES 拟合任务都推荐启用。

特征工程：对称不变性

分子势能面必须满足三种对称性：平移不变性、旋转不变性、同种原子置换不变性。特征工程是 PES 拟合的第一步，也是最关键的一步。

本实验探索了两种方案：

方案	维度	优点	缺点
排序距离	66	数值范围一致，无需复杂预处理	排序破坏微分关系，仅为工程近似
FI 多项式	172	代数完备，严格保真，可微分	各阶量纲不同，需分阶预处理

排序距离方案：计算所有原子对距离，按元素类型分组（C-C、C-H、H-H），每组内升序排列后拼接。C₆H₆（12 个原子）共有\(R = N(N-1)/2 = 66\)个原子对。数值范围一致（均为 Å 量级），工程上非常友好。

FI 多项式方案：基于 Hilbert-Noether 定理，FI 多项式是通过 Reynolds 算符构建的对称不变描述子，用于表示分子构型。共 172 维。理论上更完备，但各阶量纲不同（高阶不变量随距离增大迅速衰减），需 log 变换 + Z-score 标准化。

实验迭代

数据：11,510 个 C₆H₆ 构型，能量范围 0–33.55 eV。一共进行了 5 轮迭代。

v1：基础版（排序距离基线）

首次尝试：用排序距离特征 + 小网络建立基线。

超参数	值
网络	66 → 128 → 64 → 32 → 1
基函数	Chebyshev, G=8
L1.5\(\lambda\)	\(10^{-5}\)
优化器	AdamW, lr=5e-4
参数量	149,760
结果 (Test MAE)	0.00416 Ha = 2.61 kcal/mol

问题诊断：Train MSE << Val MAE（36× 差距），严重过拟合。L1.5\(\lambda=10^{-5}\)贡献仅占 train_loss 的 ~10%，正则化强度不足。

v2：优化版（加宽加深 + 强正则化）

超参数	v1	v2
基函数 G	8	12
隐藏层	[128, 64, 32]	[192, 96, 32]
BatchNorm	✗	✓
L1.5\(\lambda\)	\(10^{-5}\)	\(10^{-4}\)
学习率	5e-4	1e-3
参数量	149,760	411,779

服务器结果 （347 epochs 早停）：

Best Val MAE = 0.0834 eV （epoch 267）
Test MAE = 0.0827 eV = 1.908 kcal/mol
Test RMSE = 0.2377 eV = 5.481 kcal/mol

这是所有实验的最佳结果。距化学精度（1 kcal/mol）仅差 0.9 kcal/mol。排序距离特征 + 宽网络 + BatchNorm 的组合效果出色。

v3：FI 特征版

动机：用代数完备的 FI 特征替代排序距离，理论上更严格的对称性保证。

变更：

特征：66 维排序距离 → 172 维 FI 特征
网络：172 → 128 → 64 → 32 → 1，G=8
参数量：258,304
预处理：仅 log 变换，未做 Z-score + 未启用 BatchNorm

结果（406 epochs 早停）：

Test MAE = 0.2482 eV = 5.725 kcal/mol

诊断：172 维中高阶 FI 数值差异极大，log 变换不充分。且无 BatchNorm + 小网络，拟合能力受限。

v4：正则化增强版（AdaHessian + λ 退火 + 梯度惩罚）

在 FI 框架内启用全套正则化策略，缩窄网络适配二阶优化器：

改进项	详情
网络缩窄	[128,64,32] → [30,30]，参数 48,720
二阶优化器	AdaHessian （自适应 Hutchinson 对角 Hessian 估计）
λ 退火	\(10^{-5}\)线性退火 → \(10^{-3}\)
梯度惩罚	\(\beta=10^{-4}\)
Dropout	\(p=0.1\)
预处理	log + Z-score 均启用

结果（321 epochs 早停）：

Test MAE = 0.1642 eV = 3.787 kcal/mol

亮点：仅 48K 参数（v3 的 1/5）就取得了比 v3 好 34% 的结果。λ 退火 + 梯度惩罚 + AdaHessian 的组合被证明有效。

v5：傅里叶基函数版

动机：傅里叶级数比 Chebyshev 多项式数值更稳定，频率物理意义更直观。

变更：

基函数：Chebyshev → Fourier:\([1, \sin(\pi x), \cos(\pi x), \sin(2\pi x), \cos(2\pi x), \dots]\)- 优化器：LMM （完整 Levenberg-Marquardt，Jacobi 矩阵法）
网络：172 → 128 → 64 → 32 → 1，G=8

结果：

仅 60 epochs 即发散
Best Val MAE (epoch 10) = 0.3488 eV
Test MAE = 0.3628 eV = 8.366 kcal/mol

诊断：傅里叶基要求数据具有周期性——势能面非周期，导致高频分量无法有效拟合。LMM 构建完整\(J^T J\)矩阵（258K² ~ 66 GB），计算量极大且训练不稳定。

结果分析

综合对比

版本	特征	网络	参数	基函数	优化器	Test MAE (eV)	Test MAE (kcal/mol)
v2	距离 66D	192→96→32	411,779	Chebyshev G=12	AdamW	0.0827	1.908
v1	距离 66D	128→64→32	149,760	Chebyshev G=8	AdamW	0.1133	2.61
v4	FI 172D	30→30	48,720	Chebyshev G=8	AdaHessian	0.1642	3.787
v3	FI 172D	128→64→32	258,304	Chebyshev G=8	AdamW	0.2482	5.725
v5	FI 172D	128→64→32	258,304	Fourier G=8	LMM	0.3628	8.366

几个关键发现

发现 1：距离特征 + 宽网络 = 当前最佳

v2 的 1.91 kcal/mol 是所有实验中最好的。排序距离特征虽然理论上不如 FI 完备，但工程上：

数值范围一致（均为 Å 量级），无需复杂预处理
每个维度的物理意义清晰，网络易于学习
配合宽网络 + BatchNorm 可充分逼近

发现 2：FI 特征 + 强正则化 > FI 特征 + 大网络

从 v3 到 v4，在 FI 框架内：

弱正则化大网络（v3，258K 参数）→ 5.73 kcal/mol
强正则化小网络（v4，49K 参数）→ 3.79 kcal/mol

正则化策略（λ 退火、梯度惩罚、AdaHessian）的贡献显著。

发现 3：优化器对比

优化器	收敛速度	最终精度	训练稳定性	内存开销
AdamW	✓✓	✓✓✓	✓✓✓	O(P)
AdaHessian	✓	✓✓	✓✓	O(P)
LBFGS	✓✓	✓	✓	O(P)
LM (对角)	✓✓	✓	✓	O(P)
LMM (完整)	✓✓✓	✗	✗✗	O(P²)

AdaHessian 在小网络（v4，48K 参数）表现可圈可点。完整 LM 不适合此规模的网络（258K² ~ 66 GB 矩阵）。

发现 4：梯度惩罚的有效性

v4（启用梯度惩罚）vs v3（未启用）的对比表明，\(\|\partial E/\partial x\|^2\)能在不增加参数的情况下有效平滑 PES。建议在所有 PES 拟合中默认启用。

展望

短期可以立即实施的改进方向：

方向	具体措施	预期收益
v2 + λ 退火	在 v2 架构上引入 λ 退火 + 梯度惩罚	有望突破 1.5 kcal/mol
v2 + 能量归一化	对能量做 Z-score 后训练，反归一化恢复	训练更稳定，加速收敛
v4 加宽	保留 v4 正则化，网络加宽至 [128,64,32]	在 FI 框架内逼近 2.0 kcal/mol
数据增强	对已有构型做随机旋转/扰动	提高泛化能力

中长期的几个方向：

力匹配（Force Matching）：联合训练能量 + 力\(L_{\text{total}} = L_{\text{MSE}}(E) + \alpha \cdot L_{\text{MSE}}(F)\)，力数据可通过一次有限差分自动生成，无需额外 DFT 计算
集成与不确定性量化：训练多个 LipKAN 集成预测，方差 = 预测不确定性，用于主动学习采样
训练数据补全：当前 11,510 构型能量分布偏斜，高能区域和过渡态附近需加密采样
迁移学习：将 C₆H₆ 的 LipKAN 迁移到同类体系，冻结底层、微调顶层，新体系仅需少量额外数据

结语

这次实验的核心收获是验证了 LipKAN 在势能面拟合中的有效性——通过 tanh + L1.5 正则化，确实能有效抑制非物理振荡，在排序距离特征 + 宽网络的配置下取得了接近化学精度的结果。

1.91 kcal/mol 离 1 kcal/mol 的化学精度还有一段距离，但这个差距是可以通过工程优化（λ 退火、梯度惩罚、能量归一化）来缩小的。这比从零设计新的架构要务实得多。

从 NeurIPS 2025 上读到那篇论文，到动手实现 LipKAN，再到在 C₆H₆ 体系上跑出有意义的数字——理论到实践的闭环，大概就是这样。

参考文献

Li et al. (2025). Generalization Bounds for Kolmogorov-Arnold Networks (KANs) and Enhanced KANs with Lower Lipschitz Complexity. NeurIPS 2025.
Liu, Z. et al. (2024). KAN: Kolmogorov-Arnold Networks. arXiv:2404.19756.
Behler, J. (2011). Atom-centered symmetry functions for constructing high-dimensional neural network potentials. J. Chem. Phys., 134(7), 074106.