将KAN scale up!
我们提出了Kolmogorov–Arnold Transformer (KAT),希望为Transformer带来一些新的尝试。传统的Transformer模型通常依赖多层感知机(MLP)层来混合通道间的信息,而我们这次尝试将Kolmogorov-Arnold Network (KAN) 层引入Transformer,看看能否带来新的提升。
在将KAN融入Transformer的过程中,我们遇到了三个主要挑战:
1️⃣ 基础函数(Base function):传统的B样条函数在现代硬件上的并行计算效率较低,影响了推理速度。
2️⃣ 参数与计算效率:KAN为每个输入输出对使用独立函数,导致计算量较大。
3️⃣ 权重初始化:由于KAN包含可学习的激活函数,如何有效初始化权重对模型的收敛至关重要。
✨ 为了解决这些问题,我们提出了以下解决方案:
1️⃣ 有理函数基础(Rational basis):我们用有理函数替代B样条函数,提升了与现代GPU的兼容性,并通过CUDA实现了