awesome-hallucination-detection
引用此存储库
@misc{MinerviniAHD2024,
author = {Pasquale Minervini and others},
title = {awesome-hallucination-detection},
year = {2024},
publisher = {GitHub},
journal = {GitHub repository},
howpublished = {\url{https://github.com/EdinburghNLP/awesome-hallucination-detection}}
}
论文和摘要
HallusionBench: An Advanced Diagnostic Suite for Entangled Language Hallucination and Visual Illusion in Large Vision-Language Models
- 指标: 准确性
- 数据集: HallusionBench
- 评论: 该基准测试对包括GPT-4V(Vision)、Gemini Pro Vision、Claude 3和LLaVA-1.5在内的高级大视觉语言模型(LVLMs)提出了显著挑战,强调了对视觉数据的细致理解和解释。本文为这些视觉问题引入了一种新的结构,用于建立对照组。该结构可以对模型的响应趋势、逻辑一致性和各种失败模式进行定量分析。
Unified Hallucination Detection for Multimodal Large Language Models
- 指标: 准确性, F1/精准度/召回率
- 数据集: MHaluBench
- 框架: UniHD
- 评论: 这篇论文提出了多模态大语言模型中幻觉检测的更统一的问题设置,揭示了包含各种幻觉类别和多模态任务的元评估基准MHaluBench,并介绍了UNIHD,这是一个统一的框架,用于检测MLLMs生成内容中的幻觉。
FactCHD: Benchmarking Fact-Conflicting Hallucination Detection
- 指标: 检测的F1,解释的匹配度
- 数据集: FactCHD
- 亮点: 本文介绍了FACTCHD基准,重点在于检测与事实冲突的幻觉。FACTCHD整合了来自多个领域的事实知识,涵盖了广泛的事实模式,包括原始事实、多跳推理、比较和集合操作。其区别在于其目标是结合基于事实信息的证据链,以便在预测某一声明的真实性或非真实性时进行有说服力的推理。
Attention Satisfies: A Constraint-Satisfaction Lens on Factual Errors of Language Models
- 指标: AUROC,风险覆盖曲线操作点
- 数据集: CounterFact,从Wikidata生成的事实查询
- 评论: 本文将事实查询建模为约束满足问题,并发现对约束标记的注意显著与事实正确性/幻觉相关。
TRUE: Re-Evaluating Factual Consistency Evaluation
- 指标: AUROC,多数据集和评估方法
- 数据集: PAWS, XSum, QAGS, FRANK, SummEval, BEGIN, Q^2, DialFact, FEVER, VitaminC
TrueTeacher: Learning Factual Consistency Evaluation with Large Language Models
- 指标: AUROC,多数据集和评估方法
- 数据集: XSum, QAGS, FRANK, SummEval
SAC$^3
$: Reliable Hallucination Detection in Black-Box Language Models via Semantic-aware Cross-check Consistency
- 指标: 准确性和AUROC: 分类QA和开放域QA
- 数据集: 雪球幻觉中的素数和参议员搜索,HotpotQA和Nq-open QA
Elastic Weight Removal for Faithful and Abstractive Dialogue Generation
- 指标: 预测响应与真实知识之间的忠实度 (表1) -- 评价者,Q²,BERT F1,F1
- 数据集: Wizard-of-Wikipedia (WoW), MultiWoZ 2.1的DSTC9和DSTC11扩展,FaithDial—a去幻觉的WoW子集
Trusting Your Evidence: Hallucinate Less with Context-aware Decoding
- 指标: 摘要的事实一致性: BERT-Precision和FactKB. MemoTrap和NQ-Swap: 精确匹配
- 数据集: 摘要: CNN-DM, XSUM. 知识冲突: MemoTrap, NQ-Swap
When Not to Trust Language Models: Investigating Effectiveness of Parametric and Non-Parametric Memories
- 指标: 精确匹配/准确性
- 数据集: 长尾实体的QA数据集: PopQA, EntityQuestions; NQ
Retrieval Augmentation Reduces Hallucination in Conversation
- 指标: 生成: 困惑度,单字重叠(F1),BLEU-4,ROUGE-L. 生成和人类在数据集收集期间所依赖的知识之间的重叠: 知识F1;在计算F1时只考虑数据集中不常见的单词: Rare F1
- 数据集: Wow, CMU Document Grounded Conversations (CMU_DoG). 知识来源: KiLT Wikipedia dump
Just Ask for Calibration: Strategies for Eliciting Calibrated Confidence Scores from Language Models Fine-Tuned with Human Feedback
- 指标: 预期校准误差 (ECE) 使用温度缩放 (ECE-t); 准确性@覆盖率和覆盖率@准确性
- 数据集: 评估事实知识的问答数据集: TriviaQA, SciQ, TruthfulQA
How Language Model Hallucinations Can Snowball
- 指标: 错误答案的百分比(幻觉)以及“模型知道自己错误”的情况(雪球式幻觉)
- 数据集: 素性测试,参议员搜索,图连通性
Improving Language Models with Advantage-based Offline Policy Gradients
- 指标: 知识支持的响应生成的忠实度评估 on FaithDial -- FaithCritic, CoLA (流利度), 对话参与度,长度惩罚的TF-IDF多样性
- 数据集: 忠实的知识支持对话: FaithDial,WoW中的一个更忠实的子集
Generating with Confidence: Uncertainty Quantification for Black-box Large Language Models
- 指标: AUROC,AUARC,不确定性和置信度指标 (NumSet, Deg, EigV)
- 数据集: CoQA (开放书会话问答数据集), TriviaQA和自然问题(闭卷问答)
Contextualized Sequence Likelihood: Enhanced Confidence Scores for Natural Language Generation
- 指标: AUROC,AUARC;改进的序列概率(生成序列的对数概率)用于置信度或不确定性计算
- 数据集: CoQA(开放书会话问答数据集),TriviaQA和自然问题(闭卷问答)
FaithDial: A Faithful Benchmark for Information-Seeking Dialogue
- 指标: 衡量生成响应的幻想度或它们与黄金忠实响应重叠的指标: 评价者,Q² (F1, NLI), BERTScore, F1, BLEU, ROUGE
- 数据集: FaithDial,WoW
Neural Path Hunter: Reducing Hallucination in Dialogue Systems via Path Grounding
- 指标: FeQA,一种忠实度指标; 评价者,一种幻觉评价者; BLEU
- 数据集: OpenDialKG,一个提供基于知识图路径的开放式对话响应的数据集
HaluEval: A Large-Scale Hallucination Evaluation Benchmark
- 指标: 准确性: QA,对话,摘要
- 数据集: HaluEval,一个生成和人工标注的幻觉样本集合,用于评估LLM在识别幻觉时的表现
Self-contradictory Hallucinations of Large Language Models: Evaluation, Detection and Mitigation
- 指标: 生成句子对后,在检测任务中衡量精确度,召回率和F1得分
- 数据集: 从维基百科选择的12个主题
Mitigating Language Model Hallucination with Interactive Question-Knowledge Alignment
- 指标: 覆盖率: 一个二元指标,确定生成的值是否包含所有正确的黄金答案值。幻觉: 一个二元指标,评估生成的值中是否存在不存在于问题值和黄金值中的值。用户模拟: 作为“oracle”语言模型的用户模拟器,可以访问目标答案的归因信息。
- 数据集: FuzzyQA,一个基于HybridDialogue和MuSiQue的数据集,其中复杂问题使用ChatGPT简化
Check Your Facts and Try Again: Improving Large Language Models with External Knowledge and Automated Feedback
- 指标: KF1, BLEU, ROUGE, chrF, METEOR, BERTScore, BARTScore, BLEURT, 平均长度
- 数据集: 新闻对话: DSTC7 Track 2被重新用作新闻对话的评估语料库。客户服务: 使用DSTC11 Track 5在客户服务会话场景中进行展示,扩展了DSTC9 Track 1,包含主观信息。
SelfCheckGPT: Zero-Resource Black-Box Hallucination Detection for Generative Large Language Models
- Metrics: 句子级幻觉检测(AUC-PR)和段落级幻觉检测(皮尔逊和斯皮尔曼相关系数)。
- Datasets: 来自WikiBio的生成维基百科文章,带有注释幻觉。
The Internal State of an LLM Knows When it's Lying
- Metrics: 每个主题和平均准确性。
- Datasets: 真假数据集包含涵盖多个主题的真实和虚假陈述——城市、发明、化学元素、动物、公司和科学事实。
Chain of Knowledge: A Framework for Grounding Large Language Models with Structured Knowledge Bases
- Metrics: 精确匹配。
- Datasets: FEVER,Adversarial HotpotQA。
Halo: Estimation and Reduction of Hallucinations in Open-Source Weak Large Language Models
- Metrics: HaloCheck和SelfCheckGPT得分;一致性,事实性。
- Datasets: NBA领域的生成和审核问题。
A Stitch in Time Saves Nine: Detecting and Mitigating Hallucinations of LLMs by Validating Low-Confidence Generation
- Metrics: 检测句子级和概念级幻觉的精度和召回率。
- Datasets: ChatGPT生成的涵盖150个主题的段落,来自不同领域。
Sources of Hallucination by Large Language Models on Inference Tasks
- Metrics: 方向性的Levy/Holt精度和召回,带有实体插入和替换。
- Datasets: Levy/Holt数据集,包含前提-假设对,任务格式为给定[前提P],是否可以说[假设H]为真,模型使用随机前提进行评估。
Hallucinations in Large Multilingual Translation Models
- Metrics: 在扰动下生成幻觉的机器翻译系统的比率(语言对分数,比率)。
- Datasets: Flores-101,WMT,TICO。
Citation: A Key to Building Responsible and Accountable Large Language Models
- Metrics: N/A
- Datasets: N/A
Zero-Resource Hallucination Prevention for Large Language Models
- Metrics: 幻觉指令分类:AUC,ACC,F1,PEA。
- Datasets: Concept-7,专注于分类潜在的幻觉指令。
RARR: Researching and Revising What Language Models Say, Using Language Models
- Metrics: 编辑前后可追溯到已识别来源(AIS)分数。
- Datasets: 通过创建任务输入并提示不同模型生成可能包含幻觉的长篇输出而生成的陈述——事实陈述、推理链和知识密集型对话。
Q²: Evaluating Factual Consistency in Knowledge-Grounded Dialogues via Question Generation and Question Answering
- Metrics: Q² 是一个指标,与F1标记级别重叠、精度和召回、没有NLI的Q²、E2E NLI、重叠、BERTScore和BLEU比较。
- Datasets: WoW包含对话,机器人需要知识渊博地响应用户输入;Topical-Chat是一个人类-人类知识基础的对话数据集;Dialogue NLI是基于Persona-Chat对话任务的数据集,包含前提-假设对。
Do We Know What We Don’t Know? Studying Unanswerable Questions beyond SQuAD 2.0
- Metrics: 所有问题、"有答案"和"不知道"的EM
- Datasets: MNLI, SQuAD 2.0, ACE-whQA。
Chain-of-Verification Reduces Hallucination in Large Language Models
- Metrics: Wikidata和Wiki-Category列表:针对列表问题的测试精度、正面和负面(幻觉)实体的平均数量;MultiSpanQA:F1,精度,召回;长篇传记生成:FactScore。
- Datasets: Wikidata,Wiki-Category列表,MultiSpanQA,长篇传记生成。
Detecting and Mitigating Hallucinations in Multilingual Summarisation
- Metrics: mFACT,是一个从四个英语忠实度指标(DAE,QAFactEval,ENFS%,EntFA)中开发的新多语言忠实指标。
- Datasets: XL-Sum,是一个多语言总结数据集。
Hallucinated but Factual! Inspecting the Factuality of Hallucinations in Abstractive Summarization
- Metrics: XEnt:幻觉(准确率,F1),事实性(准确率,F1),ROUGE,新奇n-gram的百分比,忠实度(%ENFS,FEQA,DAE),EntFA(%事实实体,%事实幻觉)。
- Datasets: 一个新数据集XEnt,用于分析抽象总结中的实体幻觉和事实性,由BART生成并注释的800个总结。MEnt是XSum的事实性和幻觉注释集。
- Comments: 表2概述了几种类型的幻觉(例如,事实的,非事实的,内在的)。
Enabling Large Language Models to Generate Text with Citations
- Metrics: 流畅性(MAUVE),正确性(ASQA的EM召回,QAMPARI的召回-5,ELI5的声明召回),引用质量(引用召回,引用精度)。
- Datasets: QA数据集包含1)它们包含引用非常重要的事实问题,2)问题需要涵盖多个方面的长文本答案,3)回答问题需要综合多个来源:ASQA,QAMPARI,ELI5。
A Token-level Reference-free Hallucination Detection Benchmark for Free-form Text Generation
- Metrics: 准确率,G-Mean,BSS,AUC,不幻觉(P,R,F1),幻觉(P,R,F1)。
- Datasets: HaDes(幻觉检测数据集),一个新型的标记级无参考幻觉检测数据集,通过扰动从英文维基百科中提取的大量文本片段并经过众包注释验证得到。
- Comments: 图3概述了几种类型的幻觉(领域特定知识,常识知识,不连贯或不适当的搭配,无关主题,冲突的前后文,中断上下文,..)
Generating Benchmarks for Factuality Evaluation of Language Models
- Metrics: 给事实完成赋予最高概率的例子比例。
- Datasets: Wiki-FACTOR和News-FACTOR:两个基于维基百科和新闻文章的新型事实性评估基准。每个例子由一个前缀、一个事实完成和三个相似但不真实的替代品组成。
- Comments: 该论文介绍了一种从给定语料库自动生成此类数据集的框架,详见第3节。
Do Language Models Know When They're Hallucinating References?
- Metrics: 幻觉率(H%,在1000个生成的标题中)。
- Datasets: 生成的(真实和幻觉的)引用,涵盖ACM计算分类系统的主题。
Why Does ChatGPT Fall Short in Providing Truthful Answers?
- Metrics: 正确和错误答案的数量,以及不同类型错误的计数:理解,事实性,具体性,推理。
- Datasets: HotpotQA,BoolQ。
- Comments: 这有一个有关不同错误类型的好分类——例如,理解,事实性,具体性,推理。
LM vs LM: Detecting Factual Errors via Cross Examination
- Metrics: 不同交叉检查策略下的精度,召回率,F1(AYS,IDK,基于置信度,IC-IDK)。
- Datasets: TriviaQA,NQ,PopQA。
RHO (ρ): Reducing Hallucination in Open-domain Dialogues with Knowledge Grounding
- Metrics: BLEU,ROUGE-L;FeQA,QuestEval,实体覆盖(精度,召回率,F1)来估计幻觉程度——FrQA和QuestEval是评估生成任务输出忠实度的QA基指标。
- Datasets: OpenDialKG。
FActScore: Fine-grained Atomic Evaluation of Factual Precision in Long Form Text Generation
- Metrics: 支持的声明百分比,涵盖不同频率的人的实体。
- Datasets: 从LLM生成的人的传记,由人工注释者将其分解为支持事实。
ExpertQA: Expert-Curated Questions and Attributed Answers
- Metrics: 零样本(P,R,F1)和微调的AutoAIS标签(P,R,F1);参考事实性标签的FActScore F1得分;AutoAIS(可追溯到已识别来源)的得分。
- Datasets: 多领域(如人类学、建筑学、生物学、化学、工程与技术、医疗/医学;见表1)专家策划的问题,按问题类型(如单一明确答案的定向问题,可能有歧义的开放性问题,对话题信息的总结,关于如何解决问题的建议或建议;见表2)组织。
DoLa: Decoding by Contrasting Layers Improves Factuality in Large Language Models
- 评价指标: TruthffulQA: MC1, MC2, MC3 分数;FACTOR: News, Wiki;这些是多项选择结果。开放式生成:对 TruthfulQA,他们使用 %Truth, %Info, %Truth*Info, %Reject;对于 CoT 任务(StrategyQA 和 GSM8K)他们使用准确率。
- 数据集: TruthfulQA, FACTOR(新闻/维基), StrategyQA, GSM8K
FreshLLMs: Refreshing Large Language Models with Search Engine Augmentation
- 评价指标: 准确率(严格标准、宽松标准对快速变化的问题、慢速变化的问题、永不变化的问题、虚假前提的问题涉及2022年前后的知识,1跳和多跳问题以及整体)。
- 数据集: FreshQA,一个新的问答基准,包含 600 个涵盖广泛问题和答案类型的问题。
Beyond Factuality: A Comprehensive Evaluation of Large Language Models as Knowledge Generators
- 评价指标: 事实性、相关性、一致性、信息量、帮助性和有效性。
- 数据集: Natural Questions, Wizard of Wikipedia.
Complex Claim Verification with Evidence Retrieved in the Wild
- 评价指标: 准确率, MAE, Macro-F1, 软准确率。
- 数据集: ClaimDecomp,包含 1200 个来自 PolitiFactL 的复杂声明,每个声明都有六种真实性标签之一,期望事实核查人员编写的证明段落,并由先前工作注释的子问题。
FELM: Benchmarking Factuality Evaluation of Large Language Models
- 评价指标: 准确率, F1/精确率/召回率。
- 数据集: 推理、数学、写作/推荐、科学/技术、世界知识: GSM8K, ChatGPT, MATH, TruthfulQA, Quora, MMLU/hc3。
Evaluating Hallucinations in Chinese Large Language Models
- 评价指标: 人类和 GPT-4 评估。
- 数据集: HalluQA(他们提出的),并提到 TruthfulQA, ChineseFactEval, HaluEval。
On Faithfulness and Factuality in Abstractive Summarization
- 评价指标: ROUGE, BERTScore;人类评估(识别幻觉片段及其内在或外在性质)——内在幻觉 是对输入文档中信息的操纵,而 外在幻觉 是无法从输入文档中直接推断的信息。让人类标注内在和外在幻觉。
- 数据集: XSum。
QuestEval: Summarization Asks for Fact-based Evaluation
- 评价指标: QuestEval(本文提出),用于测试 一致性、连贯性、流畅性 和 相关性。ROUGE, BLUE, METEOR, BERTScore。SummaQA, QAGS。
- 数据集: SummEval, QAGS-XSUM, SQuAD-v2。
QAFactEval: Improved QA-Based Factual Consistency Evaluation for Summarization
- 评价指标: QAFactEval(本文提出),测量答案选择、问题生成、问答、答案重叠和过滤/可答性。
- 数据集: SummaC,一个用于二进制事实一致性评估的基准集合;CGS,来自 CNN/DailyMail 的正确和错误句子;XSF;Polytope;FactCC;SummEval;FRANK;QAGs。
Fast and Accurate Factual Inconsistency Detection Over Long Documents
- 评价指标: SCALE(本文提出的新指标)。与 Q²、ANLI、SummaC、F1、BLEURT、QuestEval、BARTScore、BERTScore(表3)比较。
- 数据集: TRUE 基准和 ScreenEval,为评估长篇对话中的事实不一致性而提出的新数据集(52 篇 SummScreen 的文档)。
Understanding Factuality in Abstractive Summarization with FRANK: A Benchmark for Factuality Metrics
- 评价指标: BERTScore, FEQA, QGFS, DAE, FactCC
- 数据集: 提出了一个新数据集 FRANK:对 CNN/DM 和 XSum 数据集进行人工注释的事实错误
TRUE: Re-evaluating Factual Consistency Evaluation
- 评价指标: Q², ANLI, SummaC, BLEURT, QuestEval, FactCC, BARTScore, BERTScore
- 数据集: 整合了 11 个不同的人类注释数据集以评估事实一致性。
The Curious Case of Hallucinatory (Un)answerability: Finding Truths in the Hidden States of Over-Confident Large Language Models
- 评价指标: (分类)F-1,精确匹配,(标记)F-1
- 数据集: SQuAD, Natural Questions, MuSiQue
- 评论: 本文探讨了大型语言模型在闭卷情况下处理(不可)回答问题的能力,即基于给定段落回答问题,其中段落中没有答案。本文显示尽管大型语言模型倾向于虚构上下文答案而不是声明无法回答问题,但它们内部了解问题的(不可)回答性。
Do Androids Know They're Only Dreaming of Electric Sheep?
- 评价指标: (幻觉检测)响应级 F1,片断级部分信用匹配 F1
- 数据集: 有机生成和合成编辑的 CNN DailyMail,ConvFEVER 和 E2E,按片断标记幻觉
- 评论: 语言模型知道何时它们在产生幻觉,我们可以在解码期间训练探测器在大型语言模型的隐藏状态下可靠地检测它们。
Correction with Backtracking Reduces Hallucination in Summarization
- 评价指标: AlignScore, FactCC, BS-Fact, ROUGE-L
- 数据集: CNN/DM, XSum, Newsroom
Fine-grained Hallucination Detection and Editing for Language Models
- 评价指标: 精确率, 召回率, F1。
- 数据集: 用于各种类型(事实性)幻觉的自定义细粒度幻觉检测/编辑数据集:实体、关系、矛盾、虚构、主观、不可证实。
LLMs as Factual Reasoners: Insights from Existing Benchmarks and Beyond
- 评价指标: 各种错误类型的准确率——正面例子、日期交换、实体交换、否定句子、数字交换、代词交换。
- 数据集: 他们提出 SummEdits,一个 10 域的不一致检测基准。
Evaluating the Factual Consistency of Abstractive Text Summarization
- 评价指标: 他们提出 FactCC,衡量抽象文本总结的事实一致性(直觉:摘要如果包含与源文档相同的事实,则被认为事实一致)
- 数据集: CNN/DM 用于生成训练数据;MNLI 和 FEVER 用于训练模型。基于人类的实验用于评估 CNN/DM 文章的声明。
SummaC: Re-Visiting NLI-based Models for Inconsistency Detection in Summarization
- 评价指标: 每个数据集都有其指标(例如,CoGenSumm 使用重排序指标;XSumFaith、SummEval 和 FRANK 提出了几个指标并分析了它们与人类注释的相关性等)——对于 SummaC,作者提出使用平衡准确率。
- 数据集: 他们提出了 SummaC(Summary Consistency),一个由六个大型不一致检测数据集组成的基准:CoGenSumm, XSumFaith, Polytope, FactCC, SummEval 和 FRANK。
On the Origin of Hallucinations in Conversational Models: Is it the Datasets or the Models?
- 评价指标: 专家和非专家注释:部分幻觉、蕴涵、幻觉、不合作、通用(这些类别都有更细粒度的子类别——例如参见图2)——注释遵循 BEGIN 和 VRM 分类法。
- 数据集: 基于知识的对话基准:Wizard of Wikipedia(WoW), CMU-DoG 和 TopicalChat——这些数据集包括两个对话者之间的对话,目标是传递有关特定主题的信息,而对话者会被提供与当前回合相关的知识片段。
Teaching Language Models to Hallucinate Less with Synthetic Tasks
- 评价指标: 多种设置下的幻觉率(原始状态、优化后的系统消息、完整的 LLM 权重、合成数据或合成与参考数据的混合);BLUE, ROUGE-1, ROUGE-2, ROUGE-L。
- 数据集: 搜索与检索(MS MARCO),会议总结(QMSum),自动化临床报告生成(ACI-Bench)。
Faithfulness-Aware Decoding Strategies for Abstractive Summarization
- 评价指标: ROUGE-L, BERTScore, BS-Fact, FactCC, DAE, QuestEval
- 数据集: CNN/DM, XSum
KL-Divergence Guided Temperature Sampling
- 评价指标: 会话问答:在 MNLI, SNLI, FEVER, PAWS, ScTail 和 VitaminC 上微调的模型。总结:在 ANLI 和 XNLI 上微调的模型。
- 数据集: 多轮对话中的问题重写(QReCC),XLSum。
研究大型语言模型在摘要生成中的幻觉现象
- 评估标准: 幻觉风险评估标准 (HaRiM+), SummaC, SummaCzs, SummaCconv, 幻觉风险比 (HRR)
- 数据集: FactCC, Polytope, SummEval, 法律合同, RCT
基于实体的知识冲突在问答中的应用
- 评估标准: EM, 记忆比例
- 数据集: NQ开发集(含答案重叠 (AO) 和不重叠 (NAO) 的部分), NewsQA
TruthX: 通过在真实空间中编辑大型语言模型来缓解幻觉现象
- 评估标准: TruthfulQA多项选择任务的MC1/MC2/MC3得分;TruthfulQA开放式生成任务的%Truth, %Info, %Truth*Info;自然问题、TriviaQA和FACTOR(新闻、专家、维基)选择准确率
- 数据集: TruthfulQA, 自然问题, TriviaQA, FACTOR(新闻、专家、维基)
问题拆解提升模型生成推理的可信度
- 评估标准: 准确率, 最终答案删除敏感性, 最终答案篡改敏感性, 有偏背景准确率变化
- 数据集: HotpotQA, OpenbookQA, StrategyQA, TruthfulQA
大型语言模型的自相矛盾幻觉现象:评估、检测和缓解
- 评估标准: 检测:精确度, 召回率, F1. 缓解:去除自相矛盾比例, 保留信息事实比例, 困惑度增加
- 数据集: 定制开放域文本生成数据集,大型语言模型生成的维基百科实体百科描述文本, PopQA
特定领域条目
Med-HALT: 大型语言模型的医疗领域幻觉测试
- 评估标准: 推理幻觉测试(错误信心测试,无上述选项测试,虚假问题测试),记忆幻觉测试(摘要到链接测试,PMID到标题测试,标题到链接测试,链接到标题测试);准确率,逐点评分
- 数据集: Med-HALT: MEDMCQA, Headqa, Medqa USMILE, Medqa(台湾), Pubmed
基于检索的代码相关少样本学习提示选择
- 评估标准: 准确率, 合理匹配准确率
- 数据集: ATLAS数据集, TFix数据集
- 评论: 发表在ICSE 2023
概述、调查和共享任务
- 减轻LLM幻觉:多方面的方法
- AI海洋中的赛壬之歌:大型语言模型幻觉调查
- 自然语言生成中幻觉的调查
- 大型基础模型中幻觉的调查
- 大型语言模型中幻觉的调查:原理、分类法、挑战和开放问题
- 论文可在此处找到
- 两个主要类别:事实性幻觉和忠实性幻觉。事实性幻觉强调生成内容与可验证的真实世界事实之间的差异,通常表现为事实上的不一致或捏造。忠实性幻觉指生成内容与用户指令或输入内容提供的上下文之间的偏离,以及生成内容内部的一致性。
- 大语言模型驱动的自助代理
- SemEval-2024任务6 - SHROOM,共享任务关于幻觉和相关的可观察过生成错误
- llm-幻觉调查
- 大型语言模型如何捕获不断变化的世界知识?最近进展综述
- 黑暗之后的黎明:大型语言模型中事实性幻觉的实证研究
分类法
自然语言生成中幻觉的调查将指标分类为统计(ROUGE, BLEU, PARENT, 知识F1等)和基于模型指标。后者进一步分为以下几类:
- 基于信息提取 (IE): 从知识来源中检索一个答案并与生成的答案进行比较——由于IE模型的错误传播,可能会出现问题。
- 基于问答 (QA): 测量生成和源参考之间的重叠/一致性,基于直觉,即如果生成内容在事实上一致于源参考,则从相同问题生成的答案会相似。用于评估摘要生成、对话和数据到文本生成中的幻觉。由问题生成模型和问题回答模型组成。
- 基于自然语言推理 (NLI): 基于只有源知识参考应当包涵忠实和无幻觉生成中的全部信息的概念。
A Survey of Hallucination in “Large” Foundation Models 综述了标记为检测、缓解、任务、数据集和评估指标的论文。关于文本中的幻觉,它将论文分为LLMs、多语言LLMs和特定领域LLMs。
黑暗之后的黎明:大型语言模型中事实性幻觉的实证研究 提出了不同类型幻觉的分类法:实体错误幻觉、关系错误幻觉、不完全幻觉、过时幻觉、过度声称幻觉、不可验证幻觉。
大型语言模型中的内部一致性和自反馈:综述 提出了一种新的视角,内部一致性,用于处理“增强推理”和“减轻幻觉”。这种视角使我们能够将许多看似不相关的工作统一到一个单一框架内。为了提高内部一致性(进而增强推理能力和减轻幻觉),本文在各种工作中识别出了常见元素,并将它们总结为一个自反馈框架。
该框架由三个组件组成:自我评估、内部一致性信号和自我更新。
- 自我评估: 负责基于模型的语言表达、解码层概率分布和隐藏状态来评估模型的内部一致性。
- 内部一致性信号: 通过自我评估,我们可以获得数值、文本、外部,甚至比较信号。
- 自我更新: 使用这些信号,我们可以更新模型的表达,甚至是模型本身,以提高内部一致性。
测量LLMs中的幻觉
- AnyScale - Llama 2的摘要生成准确度与GPT-4相仿且便宜30倍
- Arthur.ai - 幻觉实验
- Vectara - 切掉废话...检测大型语言模型中的幻觉
- Vectara LLM幻觉排行榜
- TofuEval: 评估LLMs在主题聚焦对话总结中的幻觉
测量幻觉的开源模型
- AlignScore代码和模型 - GitHub
- Google True Teacher Model - HuggingFace
- 幻觉评估模型 - HuggingFace
- Summac代码和模型 - GitHub
- SCALE代码和模型 - GitHub
定义和说明
外在和内在幻觉
Neural Path Hunter 定义外在幻觉为带来不对应于知识图谱中有效三元组的新文本片段的声明,内在幻觉为错用了知识图谱三元组中的主语或宾语而导致两者之间没有直接路径的声明。自然语言生成中的幻觉调查 定义外在幻觉*为无法从源内容中验证的生成输出,内在幻觉为生成输出与源内容相矛盾的情况。