honest_llama
Honest LLaMA项目开发的推理时干预(ITI)技术通过调整注意力头激活,显著提升了大语言模型在TruthfulQA基准测试中的真实性表现。这种方法具有数据效率高、计算成本低的优势,为平衡模型真实性和实用性提供了新思路。ITI技术在LLaMA等模型上的成功应用,展示了其在提高AI系统可信度方面的潜力。