我现单位的朱老板,说的一句话,我觉得很直击本质——“概率空间里根本没有的东西,怎么可能无中生有地变出来?”
这句话的背景是通院内部做大模型科普性质的报告会,有个同学讲了“大模型只要纯预训练就自然而然地获得了指令遵循能力”,然后被朱老板怼了。事实上确实没错——纯粹预训练(没有混合post train数据)的base模型是不具备指令遵循能力的,只能Few-Shot。指令遵循能力需要经过指令微调之后才能出现——虽然现在的模型预训练已经在模糊pretrain和post train的界限,但前提依然是有意识地混入指令微调数据,而不是真的无中生有。
同样的道理,回答提到GPT跟使用GPT生成数据训练,实际上纯粹是根本不相关的两件事。因为全网语料中有大量语料会提到GPT,反而GPT自己生成的数据反而不可能提到“GPT”或者“OpenAI”——毕竟GPT不是答非所问的弱智,不可能回答任何问题都把“我是GPT4挂在嘴边”
顺带一提,由于预训练数据的版权问题几乎无解,闭源私有模型不管是从道德上还是从法律