9个回答

DeepSeek 开源为何让 AI 开发者兴奋不已?大模型都逃不过的「幻觉问题」如何解决?

经济观察报
1个点赞 👍

大模型的幻觉是其内部机制的必然结果(我别处有若干回答),目前的大模型本身再好也无法杜绝。工程上如今多采用大模型外部的agent和RAG等逻辑闭环,在一些限定的应用领域,达到有效减少。

内部问题的简单解释是:大模型并非拷贝了训练数据中所有完整陈述语句,而是通过复杂的建模,把语句打散为词汇(精确说是比词汇更小的单元token,本题中作用相同),积累记录的是每个所见上文(包括达到几十万单词的序列)下本单词出现的概率。推理时,根据问句等输入信息,配好的上文下找到很多本地词的概率、选用概率最高的输出。然后一路下去递归成为语句。

所以,原来的训练语句被打散、新语句时临时组合而成。只有这样才能应对所有输入问题,所以绝大多数就都是未见语句了。所以,虽然大量训练数据可以让最正确语句出现概率最大,但没有保证。概率永远不是精准的事情。

这样的“遗憾”,其实也是大模型的最重要的力量!概率统计式的“推理”,绝大多数时候,会给人它有智能的感觉,包括数学推理、编程、图像视频等。

持续的改进仍在继续,包括大模型内部和外部(上述)。但是,彻底丢掉transformer等“分布式、嵌入式”表征的另外的建模方式,DeepSeek没有做,其它公司也没有做到。有的新趋势是结合LLM和RL等。我们可以拭目以待了,但最好懂点内部原理,才能不太受惊吓、开发者也就知道哪里找路。

发布于 2025-02-13 20:25・IP 属地上海
chadui123
自由评论 (0)
分享
Copyright © 2022 GreatFire.org