幻覺的類型:
- 事實性幻覺:事實錯誤;
- 忠實性幻覺:大模型的回答與用戶的Query有偏離。
幻覺的原因:
數據漏洞:
- 訓練數據可能有毒性,訓練數據來源互聯網,可能是垃圾數據;
- 訓練和推理數據分布不一致,導致在推理時產生誤差
架構缺陷:
架構上的缺陷會影響訓練和推理:
- 自回歸架構缺陷-每次只基于上個窗口中的單詞進行預測,可能會漏掉關鍵的上下文信息;如果上個窗口有錯誤,會影響到后面的預測。
- 自注意力模塊:token增加時,只能保持對某些token的注意力,可能會導致信息丟失;
- softmax 瓶頸:softmax只基于最后一個隱藏層進行輸出,如果這一層的維度限制導致信息不夠,會導致最終結果無法表示復雜特征,即使增加網絡深度也沒用。
- 自身的隨機性:無論訓練還是推理,生成答案時本身就有隨機性,大模型是按照概率選取可能的生成內容;
訓練:
訓練:對齊階段不充分/有偏好引導
- 對齊階段時沒有對提問相關的能力做針對性的提升;
- 對齊階段有偏好引導,使得大模型的回答更符合部分人的偏好 (Social Biases);
參考:
A Survey on Hallucination in Large Language Models: Principles, Taxonomy, Challenges, and Open Questions
https://arxiv.org/abs/2311.05232?spm=ata.21736010.0.0.223d7536BYLdEI&file=2311.05232