kan算是一个很好的想法,可以与mlp互补
脱离基本结构谈参数量,本身没什么意义,与其谈参数量不如谈函数复杂度(function complexity),因为计算机里面本身就有时间和空间的权衡,拿时间换空间或者拿空间换时间,kan更像是前者
对可解释性问题,个人觉得kan并不一定比mlp好多少,实际上mlp里影响其基本逻辑的主要就是activation function,线性变换大同小异,当然attention中qk矩阵乘确实也影响了其函数逻辑,导致可解释性比较难,所以mlp固定的激活函数,如relu等piecewise linear function并不黑箱,比较好研究。而kan直接就是动态的激活函数,当数据很高维的时,其可解释性很难说。
mlp有他自身的缺陷,这种静态图结构,本身就有灾难性遗忘的缺陷,业界也在不断的优化,比如像MoE架构,GLU激活函数,或者gated linear network,NTM等。很显然每种任务的计算复杂度都是不一样的,动态图结构不仅仅能解决灾难性遗忘问题,也可以根据任务的难度权衡计算量,kan也是其中一个有意义的探索。动态图结构也不一定是由这种单一的模型构成,DAG这种有向图或者带个小环很难摆脱模型最大函数复杂度的限制
编辑于 2024-05-05 17:26・IP 属地四川