1、huggingface已经有人偷偷把weights放出来了(不用权限)
2、与llama-v1不同,llama-v2新增了chat系列,其主要归功于Supervised Fine-Tuning (SFT)、Reinforcement Learning with Human Feedback (RLHF),论文对这方面的细节描述很丰富,值得细读,这个technical report可不是closedAI的那种technical report,为我们这种小作坊进行LLM与人类对齐研究提供了工业级别研究的参考视角,极具价值!
顺便说一句,这里给人的感觉就像是llama团队对整个社区基于llama-v1做chat类LLM的总结一样,不知道有了chat版本的llama-v2后,社区还能怎么进一步玩出花(继续instruction-finetuning?)


Paper link:
3、除了Fine-tuning,文章的剩余篇幅对Safety做了很详细的介绍,整整12页内容(占比约12/34),对于后续做LLM安全很有参考价值。
不过,很多网友也调侃到,这个好像做的有点“过度安全”了

编辑于 2023-07-20 21:49・IP 属地湖北