PhaseLLM 项目介绍
PhaseLLM 是由 Phase AI 推出的一个大型语言模型评估和工作流程框架。随着大型语言模型(LLM)技术的迅速发展,未来的几个月和几年内,将会有成千上万个由这些模型驱动的新产品和体验出现。无论是使用 OpenAI 的 ChatGPT、Anthropic 的 Claude,还是其他类型的语言模型,产品和品牌经理都需要测试这些模型和提示符以满足用户的需求。PhaseLLM 正是为了解决这个问题而设计的。
安装指南
你可以通过 pip 安装 PhaseLLM,只需要执行以下命令:
pip install phasellm
需要注意的是,从 PyPI 安装并不包括在本地运行 LLM 所需的库。如果计划在本地使用 LLM(例如,我们的 DollyWrapper),请运行以下命令:
pip install phasellm[complete]
此外,示例演示和产品都存放在 demos-and-products
文件夹中。用户可以克隆这个仓库,并按照每个产品文件夹中的 README.md
文件中的说明运行这些示例。
项目功能
PhaseLLM 是一个帮助管理和测试由 LLM 驱动的体验(如产品、内容或其他用户体验)的框架。它的主要功能包括:
- 标准化 API 调用,使得用户可以方便地结合使用来自 OpenAI、Cohere、Anthropic 或其他供应商的模型。
- 提供评估框架,比较输出结果,以决定哪一个可以为用户提供最佳体验。
- 添加自动化功能,利用更高级的模型(如 GPT-4)来评估简单模型(如 GPT-3),以便找到可以在兼顾成本和速度的情况下提供最佳体验的提示符组合。
PhaseLLM 是开源的,开发团队计划在未来加入更多功能帮助理解模型。他们的目标是帮助开发者、数据科学家等更轻松地推出新的强大产品。
示例应用:评估旅游聊天机器人的提示符
假设您正在构建一个旅游聊天机器人,想要用 GPT-3.5 比较 Claude 和 Cohere 两个模型的表现。PhaseLLM 使得这种操作非常简单,您只需要少量代码即可实现。在这个示例中,我们将设置一个目标(objective),然后加载一些用户启动过的聊天记录。
使用 GPT-3.5 模型作为评估工具,您可以决定 Claude 和 Cohere 中哪个更符合目标场景。这个简单的示例也说明了如何扩展到更复杂的工作流。
联系我们
如果您有任何问题、请求、想法等,欢迎通过邮箱 w (at) phaseai (dot) com 联系我们。通过 PhaseLLM,开发人员和数据科学家能够更好、更快地测试和实施 LLM 解决方案,从而推动产品创新。