如何评价Sora模型关键理论论文作者William，2023年博士毕业时仅有2篇论文见刊？ - 先偏个题，在视觉aigc相关领域，不得不...

先偏个题，在视觉aigc相关领域，不得不承认欧美高校/企业研研人员走在了世界最前端，特别从2021开始，VQGAN，ddpm，latent diffusion model，controlnet，dreamfusion等研究工作一出手就开创了一个新领域，业界又有dalle，imagen等模型不断出圈。

反观中国内地，香港以及新家坡等内卷重灾区的aigc发展就有些拾人牙慧的感觉，基本是做一些后续改进和应用的工作。我印象比较深刻的是去年gussian splatting刚出来，知乎等中文论坛马上跟进了很多宣传和解读，搞的好像nerf已经out不懂gs就跟不上时代了。以前做high level视觉的年代，感觉并不是现在这个样子的，国内的高校和企业产出了很多引领性的工作。

个人认为这跟视觉aigc的投入产出比极低有很大关系。由于data driven需要大量的计算资源，企业没有魄力贸然投入，大部分高校实验室根本就没这个烧钱能力。即使模型有了但并不容易找到很好的商业模式，挣不了钱。而国内企业，老师，乃至大部分华人研究者都是比较务实的风气，酷爱做产品和应用，这种思维的转变需要一定的时间或冲击。

我在21年幸运地去了国内某大厂的生成算法岗位实习，印象深刻的是当时部门大部分领导 (都是领域大佬) 还觉得搞生成模型没啥用，对企业的意义不大。大家都认为数字人是个不错的方向，能落地很快就能做成产品，这可能也是国内数字人做的比较好的原因。但当23年stable diffusion和chatgpt火出圈了，midjourney让他们看到了应用前景，他们就迅速投身这波浪潮，全面转向aigc领域，跟进速度令人咂舌。

从上面的现象回到问题本身

我认为论文solid很重要，但solid与否却真的并不好评判，不同领域不同方向天差地别。这里仅举个例子，大家经常看到一些“魔改”attention或者transformer的工作，因为做这个方向的人很多，这些工作基本上在arxiv上挂出就会吸引不少引用和浏览，但大部分审稿人确实不是很喜欢这类文章很容易被拒。而一些偏理论性的工作，看起来就很fancy很足容易中稿，但往往实践起来有点差强人意，门槛高也不容易受到关注。所以这还是得辩证地看，solid是好事，文章数量多也不是坏事。

说到底对于科技发展，我认为最重要的不是关注个体文章的solid与否。需要的是整个社会或团体在大方向上走正确，增强发展的全局意识，降低考核门槛，提升考核的灵活性。务实是好事，做产品也是好事。但是不能所有人总是盯着眼前的事情，要允许和鼓励一部分人做不一样的事情。如果所有人都热衷于文章数量的追求，那必然不会出现有深度的工作。如果所有人都只追求solid，那相应的应用层面的工作也会缺少很多，科技的迭代速度也会慢下来。

眼下的时代是卷王的乐园，对于想做不一样事情的人，可能需要他们自己寻找一片土壤。

发布于 2024-02-21 10:19・IP 属地河南