Project Icon

langtest

开源工具助力语言模型全面测试与优化

LangTest是一款强大的开源工具,专为语言模型的测试和优化而设计。该工具提供超过60种测试类型,全面评估模型的鲁棒性、偏见、表示、公平性和准确性。LangTest兼容多个主流NLP框架,如Spark NLP、Hugging Face和Transformers。此外,它还能对OpenAI、Cohere等大型语言模型进行问答、毒性检测和临床测试等方面的评估。通过使用LangTest,数据科学家可以开发出更安全、可靠和负责任的自然语言处理模型。

johnsnowlabs_logo

LangTest:交付安全有效的语言模型

发布说明 博客 文档 GitHub星标图 未解决问题 下载量 CI 贡献者公约

Langtest工作流程

项目网站主要特性使用方法基准数据集社区支持贡献使命许可证

项目网站

查看我们的官方网页获取用户文档和示例:langtest.org

主要特性

  • 仅用1行代码即可生成并执行60多种不同类型的测试
  • 测试模型质量的各个方面:鲁棒性、偏见、表示、公平性和准确性
  • 根据测试结果自动增强训练数据(适用于特定模型)
  • 支持流行的NLP框架,用于命名实体识别、翻译和文本分类:Spark NLP、Hugging Face和Transformers
  • 支持测试大型语言模型(OpenAI、Cohere、AI21、Hugging Face推理API和Azure-OpenAI LLMs),用于问答、毒性检测、临床测试、法律支持、事实性、谄媚、摘要生成和其他流行测试

基准数据集

LangTest附带不同的数据集来测试您的模型,涵盖了广泛的用例和评估场景。您可以在这里探索所有可用的基准数据集,每个数据集都经过精心策划,以挑战和提升您的语言模型。无论您是专注于问答、文本摘要等,LangTest都能确保您拥有合适的数据来推动模型达到极限,并在各种语言任务中实现卓越性能。

使用方法

# 安装langtest
!pip install langtest[transformers]

# 导入并创建Harness对象
from langtest import Harness
h = Harness(task='ner', model={"model":'dslim/bert-base-NER', "hub":'huggingface'})

# 生成测试用例,运行它们并查看报告
h.generate().run().report()

注意 有关更多详细使用示例和文档,请访问langtest.org

负责任的AI博客

您可以查看以下LangTest文章:

博客描述
自动测试大型语言模型生成的临床治疗方案中的人口统计偏见帮助理解和测试大型语言模型生成的临床治疗方案中的人口统计偏见。
LangTest:揭示并修复端到端自然语言处理流程中的偏见LangTest中的端到端语言流程使自然语言处理从业者能够以全面、数据驱动和迭代的方法解决语言模型中的偏见问题。
超越准确性:使用LangTest对命名实体识别模型进行鲁棒性测试虽然准确性无疑至关重要,但鲁棒性测试将自然语言处理(NLP)模型评估提升到了一个新的水平,确保模型能够在各种真实世界条件下可靠一致地表现。
通过自动化数据增强提升您的自然语言处理模型性能在本文中,我们讨论了如何通过自动化数据增强来提升自然语言处理模型的性能,以及我们如何使用LangTest来实现这一目标。
缓解人工智能中的性别-职业刻板印象:通过Langtest库使用Wino偏见测试评估模型在本文中,我们讨论了如何使用LangTest测试"Wino偏见"。它特别指测试由性别-职业刻板印象引起的偏见。
自动化负责任的人工智能:整合Hugging Face和LangTest以构建更强大的模型在本文中,我们探讨了Hugging Face(您获取最先进NLP模型和数据集的首选来源)与LangTest(您NLP流程的秘密测试和优化武器)之间的整合。
检测和评估谄媚偏见:对大型语言模型和人工智能解决方案的分析在这篇博文中,我们讨论了人工智能行为中普遍存在的谄媚问题及其在人工智能世界中带来的挑战。我们探讨了语言模型有时如何优先考虑一致性而非真实性,从而阻碍有意义和无偏见的对话。此外,我们揭示了解决这一问题的潜在革命性方案——合成数据,它有望彻底改变人工智能伙伴参与讨论的方式,使它们在各种真实世界条件下更加可靠和准确。
揭示语言模型在否定和毒性评估中的敏感性在这篇博文中,我们深入探讨了语言模型敏感性,研究模型如何处理语言中的否定和毒性。通过这些测试,我们深入了解了模型的适应性和响应能力,强调了NLP模型持续改进的必要性。
揭示语言模型中的偏见:性别、种族、残疾和社会经济视角在这篇博文中,我们探讨了语言模型中的偏见,聚焦于性别、种族、残疾和社会经济因素。我们使用CrowS-Pairs数据集评估这种偏见,该数据集旨在衡量刻板印象偏见。为了解决这些偏见,我们讨论了像LangTest这样的工具在促进NLP系统公平性方面的重要性。
揭示人工智能内部的偏见:性别、种族、宗教和经济如何塑造自然语言处理及其他领域在这篇博文中,我们探讨了人工智能偏见,讨论性别、种族、宗教和经济如何塑造NLP系统。我们讨论了减少偏见和促进人工智能系统公平性的策略。
使用Wino偏见测试评估大型语言模型中的性别-职业刻板印象在这篇博文中,我们深入探讨了在大型语言模型上测试WinoBias数据集,研究语言模型如何处理性别和职业角色、评估指标以及更广泛的影响。让我们探索使用LangTest在WinoBias数据集上评估语言模型,并直面解决人工智能偏见的挑战。
简化机器学习工作流程:整合MLFlow跟踪与LangTest以增强模型评估在这篇博文中,我们深入探讨了对透明、系统化和全面跟踪模型的日益增长的需求。介绍MLFlow和LangTest:这两个工具结合使用,为机器学习开发创造了革命性的方法。
测试大型语言模型的问答能力在这篇博文中,我们深入探讨了使用LangTest库增强问答评估能力。探索LangTest提供的不同评估方法,以解决评估问答(QA)任务的复杂性。
使用LangTest评估刻板印象偏见在这篇博文中,我们聚焦于使用StereoSet数据集来评估与性别、职业和种族相关的偏见。
测试基于LSTM的情感分析模型的稳健性通过LangTest Insights探索自定义模型的稳健性。
LangTest Insights:深入探究LLM在OpenBookQA上的稳健性利用LangTest Insights探索语言模型(LLMs)在OpenBookQA数据集上的稳健性。
LangTest:提升Transformers语言模型稳健性的秘密武器通过LangTest Insights探索Transformers语言模型的稳健性。
掌握模型评估:介绍LangTest中的全面排名和排行榜系统John Snow Labs的LangTest提供的模型排名和排行榜系统为评估人工智能模型提供了系统化方法,包括全面排名、历史比较和特定数据集的洞察,使研究人员和数据科学家能够就模型性能做出数据驱动的决策。
使用Prometheus-Eval和Langtest评估长篇回复Prometheus-Eval和LangTest联手提供开源、可靠且经济高效的长篇回复评估解决方案,结合了Prometheus的GPT-4级性能和LangTest强大的测试框架,提供详细、可解释的反馈和高准确度的评估。
确保医疗领域LLMs的精确性:药品名称互换的挑战准确识别药品名称对患者安全至关重要。使用LangTest的drug_generic_to_brand转换测试对GPT-4进行测试,发现当品牌名称被成分替代时,预测药品名称可能出现错误,突显了持续完善和严格测试的必要性,以确保医疗LLM的准确性和可靠性。

注意 要查看所有博客,请前往博客页面

社区支持

  • Slack 加入#langtest频道,与LangTest社区进行实时讨论
  • GitHub 用于报告错误、提出功能请求和贡献
  • 讨论区 与其他社区成员互动、分享想法,并展示您如何使用LangTest!

使命

尽管人们经常谈论需要训练安全、稳健和公平的AI模型,但很少有工具可供数据科学家用来实现这些目标。因此,生产系统中NLP模型的前沿状况令人遗憾。

我们在此提出一个早期的开源社区项目,旨在填补这一空白,并希望您能加入我们的使命。我们的目标是在先前研究的基础上进行构建,如Ribeiro等人(2020)Song等人(2020)Parrish等人(2021)van Aken等人(2021)等多项研究。

John Snow Labs为该项目分配了一个完整的开发团队,并承诺在未来几年内持续改进该库,就像我们对其他开源库所做的那样。您可以期待频繁的发布,新的测试类型、任务、语言和平台将定期添加。我们期待与您合作,使安全、可靠和负责任的NLP成为日常现实。

注意 有关使用和文档,请前往langtest.org

为LangTest做出贡献

我们欢迎各种形式的贡献:

详细的贡献概述可以在**贡献指南**中找到。

如果您想开始使用LangTest代码库,请转到GitHub的"issues"标签,开始浏览有趣的问题。那里列出了一些您可以开始的问题。或者,通过使用LangTest,您可能有自己的想法,或者在文档中发现某些可以改进的地方......您可以采取行动!

如有疑问,请随时在问答讨论中提问。

作为本项目的贡献者和维护者,您应遵守LangTest的行为准则。更多信息可以在以下位置找到:贡献者行为准则

引用

我们已发表了一篇论文,您可以引用LangTest库:

@article{nazir2024langtest,
  title={LangTest: A comprehensive evaluation library for custom LLM and NLP models},
  author={Arshaan Nazir, Thadaka Kalyan Chakravarthy, David Amore Cecchini, Rakshit Khajuria, Prikshit Sharma, Ali Tarik Mirik, Veysel Kocaman and David Talby},
  journal={Software Impacts},
  pages={100619},
  year={2024},
  publisher={Elsevier}
}

贡献者

我们要感谢这个开源社区项目的所有贡献者。

许可证

LangTest根据Apache许可证2.0发布,该许可证保证商业使用、修改、分发、专利使用、私人使用,并对商标使用、责任和保证设置限制。

项目侧边栏1项目侧边栏2
推荐项目
Project Cover

豆包MarsCode

豆包 MarsCode 是一款革命性的编程助手,通过AI技术提供代码补全、单测生成、代码解释和智能问答等功能,支持100+编程语言,与主流编辑器无缝集成,显著提升开发效率和代码质量。

Project Cover

AI写歌

Suno AI是一个革命性的AI音乐创作平台,能在短短30秒内帮助用户创作出一首完整的歌曲。无论是寻找创作灵感还是需要快速制作音乐,Suno AI都是音乐爱好者和专业人士的理想选择。

Project Cover

有言AI

有言平台提供一站式AIGC视频创作解决方案,通过智能技术简化视频制作流程。无论是企业宣传还是个人分享,有言都能帮助用户快速、轻松地制作出专业级别的视频内容。

Project Cover

Kimi

Kimi AI助手提供多语言对话支持,能够阅读和理解用户上传的文件内容,解析网页信息,并结合搜索结果为用户提供详尽的答案。无论是日常咨询还是专业问题,Kimi都能以友好、专业的方式提供帮助。

Project Cover

阿里绘蛙

绘蛙是阿里巴巴集团推出的革命性AI电商营销平台。利用尖端人工智能技术,为商家提供一键生成商品图和营销文案的服务,显著提升内容创作效率和营销效果。适用于淘宝、天猫等电商平台,让商品第一时间被种草。

Project Cover

吐司

探索Tensor.Art平台的独特AI模型,免费访问各种图像生成与AI训练工具,从Stable Diffusion等基础模型开始,轻松实现创新图像生成。体验前沿的AI技术,推动个人和企业的创新发展。

Project Cover

SubCat字幕猫

SubCat字幕猫APP是一款创新的视频播放器,它将改变您观看视频的方式!SubCat结合了先进的人工智能技术,为您提供即时视频字幕翻译,无论是本地视频还是网络流媒体,让您轻松享受各种语言的内容。

Project Cover

美间AI

美间AI创意设计平台,利用前沿AI技术,为设计师和营销人员提供一站式设计解决方案。从智能海报到3D效果图,再到文案生成,美间让创意设计更简单、更高效。

Project Cover

AIWritePaper论文写作

AIWritePaper论文写作是一站式AI论文写作辅助工具,简化了选题、文献检索至论文撰写的整个过程。通过简单设定,平台可快速生成高质量论文大纲和全文,配合图表、参考文献等一应俱全,同时提供开题报告和答辩PPT等增值服务,保障数据安全,有效提升写作效率和论文质量。

投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号