相关项目
awesome-hallucination-detection
该项目汇总了关于大型语言模型(LVLMs)在多模态任务中幻觉检测的研究文献。这些研究提供了多个评估基准和框架,如HallusionBench、FactCHD、MHaluBench等,用于评估LVLMs在视觉和语言理解中的表现,涵盖了准确性、一致性、解释性等方面的指标。该仓库不仅评估现有模型,还提出新的解决方案,通过验证生成内容的准确性和一致性,减少虚假信息,提升语言模型的可靠性。
RefChecker
RefChecker是一个标准化评估框架,用于检测大语言模型(LLM)输出中的细微幻觉。该框架将LLM响应分解为知识三元组,在三种不同背景下进行精细化幻觉检测。项目包括人工标注的基准数据集、模块化架构和自动化检查器,有助于评估和改进LLM输出的事实准确性。RefChecker为研究人员和开发者提供了评估和提高LLM生成内容可靠性的工具。
Llama-3-Patronus-Lynx-8B-Instruct-v1.1
Lynx是一款开源幻觉评价模型,基于多样化数据集进行训练,专注于文本生成的准确性与一致性评估。其应用包括CovidQA、PubmedQA和RAGTruth领域,依托Pytorch等平台。模型确保生成答案准确对照原文档内容,避免新增或矛盾信息,利用JSON格式输出结果以提升应用操作性。在多项评估基准上表现卓越,是文本生成准确性评估的有力助手。