如何评价Kolmogorov-Arnold Networks，MLP真的被干掉了吗? - kan算是一个很好的想法，可以与mlp互...

kan算是一个很好的想法，可以与mlp互补

脱离基本结构谈参数量，本身没什么意义，与其谈参数量不如谈函数复杂度（function complexity），因为计算机里面本身就有时间和空间的权衡，拿时间换空间或者拿空间换时间，kan更像是前者

对可解释性问题，个人觉得kan并不一定比mlp好多少，实际上mlp里影响其基本逻辑的主要就是activation function，线性变换大同小异，当然attention中qk矩阵乘确实也影响了其函数逻辑，导致可解释性比较难，所以mlp固定的激活函数，如relu等piecewise linear function并不黑箱，比较好研究。而kan直接就是动态的激活函数，当数据很高维的时，其可解释性很难说。

mlp有他自身的缺陷，这种静态图结构，本身就有灾难性遗忘的缺陷，业界也在不断的优化，比如像MoE架构，GLU激活函数，或者gated linear network，NTM等。很显然每种任务的计算复杂度都是不一样的，动态图结构不仅仅能解决灾难性遗忘问题，也可以根据任务的难度权衡计算量，kan也是其中一个有意义的探索。动态图结构也不一定是由这种单一的模型构成，DAG这种有向图或者带个小环很难摆脱模型最大函数复杂度的限制

编辑于 2024-05-05 17:26・IP 属地四川