美国夸完 DeepSeek 后就称其是偷窃，并展开国家安全调查，如何解读这一转变？背后核心关切是什么？ - 我现单位的朱老板，说的一句话，我觉得很直...

我现单位的朱老板，说的一句话，我觉得很直击本质——“概率空间里根本没有的东西，怎么可能无中生有地变出来？”

这句话的背景是通院内部做大模型科普性质的报告会，有个同学讲了“大模型只要纯预训练就自然而然地获得了指令遵循能力”，然后被朱老板怼了。事实上确实没错——纯粹预训练（没有混合post train数据）的base模型是不具备指令遵循能力的，只能Few-Shot。指令遵循能力需要经过指令微调之后才能出现——虽然现在的模型预训练已经在模糊pretrain和post train的界限，但前提依然是有意识地混入指令微调数据，而不是真的无中生有。

同样的道理，回答提到GPT跟使用GPT生成数据训练，实际上纯粹是根本不相关的两件事。因为全网语料中有大量语料会提到GPT，反而GPT自己生成的数据反而不可能提到“GPT”或者“OpenAI”——毕竟GPT不是答非所问的弱智，不可能回答任何问题都把“我是GPT4挂在嘴边”

顺带一提，由于预训练数据的版权问题几乎无解，闭源私有模型不管是从道德上还是从法律