项目简介
LangChain Benchmarks 是一个专为大语言模型(LLM)相关任务提供基准测试的开源项目。该项目通过端到端的用例进行基准测试,并且依赖于 LangSmith 的强大功能。通过这个项目,用户可以掌握如何收集、使用和评估不同任务的基准数据集,并在此基础上优化自己的解决方案。
主要目标
LangChain Benchmarks 开源有以下几个主要目标:
- 展示如何为每个任务收集基准数据集。
- 展示我们用于每个任务的基准数据集是什么。
- 展示我们如何评估每一个任务。
- 鼓励他人使用这些任务进行基准测试,并且我们始终在寻找改善的方法。
基准测试结果
用户可以通过 LangChain 的博客了解不同任务的基准测试结果。例如:
工具使用示例
LangChain Benchmarks 提供了一些工具使用的示例,并附有相关文档和任务重现方法。例如,通过查看 工具使用文档 可以了解如何重现这些任务。
安装指南
要安装 LangChain Benchmarks 包,用户可以运行以下命令:
pip install -U langchain-benchmarks
所有基准测试都附带相关的基准数据集,存储在 LangSmith 中。为了享受评估和调试的体验,用户需要在 LangSmith 注册账户,并在环境中设置自己的 API 密钥:
export LANGCHAIN_API_KEY=ls-...
仓库结构
LangChain Benchmarks 的包位于 langchain_benchmarks
目录中。用户可以查看项目的 文档 以获取开始指南。另外,项目中还有一些旧版目录可能在未来会被移除。
归档内容
下列是需要克隆这个仓库才能运行的归档基准测试:
相关资源
用户可以参考 LangSmith 文档 了解测试、调试、监控和改善 LLM 应用的其他方法。同时,用户还可以查阅 Python 文档 或 JS 文档 了解如何与 LangChain 一起构建项目。
这些资源和工具为用户提供了进行复杂 LLM 应用开发的基石,通过 LangChain Benchmarks,用户可以更好地理解和提升自己的应用性能。