PhaseLLM：大型语言模型评估与工作流框架

phasellm

PhaseLLM：打造智能LLM应用的得力助手

在人工智能和自然语言处理技术飞速发展的今天，大型语言模型(LLM)正在revolutionizing各个行业。然而，如何有效地管理、评估和优化这些强大的模型，成为了许多开发者和企业面临的挑战。为此，Phase AI公司推出了一款开源框架——PhaseLLM，旨在简化LLM的使用流程，提高开发效率，并帮助用户打造出更加优秀的AI产品。

PhaseLLM的核心功能

PhaseLLM作为一个综合性的LLM工具集，主要提供以下几个方面的功能：

标准化API调用：PhaseLLM为OpenAI、Cohere、Anthropic等多家LLM提供商的API提供了统一的接口。这意味着开发者可以轻松地在不同的模型之间切换，而无需大幅修改代码。
评估框架：该框架内置了强大的评估工具，允许用户比较不同模型或不同提示(prompt)的输出效果。这对于优化用户体验至关重要。
自动化评估：PhaseLLM支持使用高级模型（如GPT-4）来评估较简单模型（如GPT-3）的输出。这种方法可以帮助用户在考虑成本和执行速度的同时，找到最佳的提示和模型组合。
灵活的扩展性：作为一个开源项目，PhaseLLM欢迎社区贡献，不断增加新的功能和支持更多的模型。

PhaseLLM Architecture

快速上手PhaseLLM

要开始使用PhaseLLM，您只需要几个简单的步骤：

通过pip安装PhaseLLM：

pip install phasellm

如果您计划在本地运行LLM（例如使用DollyWrapper），请安装完整版：

pip install phasellm[complete]

在您的Python代码中导入并使用PhaseLLM：

from phasellm.llms import OpenAIWrapper, AnthropicWrapper
from phasellm.eval import GPTEvaluator

# 初始化模型
openai_model = OpenAIWrapper(api_key="your_openai_api_key")
anthropic_model = AnthropicWrapper(api_key="your_anthropic_api_key")

# 设置评估器
evaluator = GPTEvaluator(api_key="your_openai_api_key")

# 使用模型生成内容并评估
response_openai = openai_model.complete("Tell me a joke")
response_anthropic = anthropic_model.complete("Tell me a joke")

result = evaluator.choose("Which joke is funnier?", response_openai, response_anthropic)
print(f"The funnier joke is from: {result}")

PhaseLLM的实际应用案例

让我们通过一个具体的例子来展示PhaseLLM的强大功能。假设您正在开发一个旅游聊天机器人，需要比较Claude和Cohere两个模型的表现，并使用GPT-3.5作为评估器。

import os
from dotenv import load_dotenv
from phasellm.eval import GPTEvaluator
from phasellm.llms import CohereWrapper, ClaudeWrapper

# 加载API密钥
load_dotenv()
openai_api_key = os.getenv("OPENAI_API_KEY")
anthropic_api_key = os.getenv("ANTHROPIC_API_KEY")
cohere_api_key = os.getenv("COHERE_API_KEY")

# 设置评估器
evaluator = GPTEvaluator(openai_api_key)

# 定义聊天机器人的目标
objective = "我们正在构建一个聊天机器人，用于讨论用户的旅行偏好并提供建议。"

# 用户对话示例
travel_chat_starts = [
    "我计划在春天访问波兰。",
    "我正在寻找下周去欧洲最便宜的航班。",
    "我在考虑去布拉格还是巴黎进行5天的旅行",
    "我想访问欧洲，但不确定春天、夏天还是秋天更好。",
    "我不确定应该经由英国还是法国飞往西班牙。"
]

# 初始化模型
cohere_model = CohereWrapper(cohere_api_key)
claude_model = ClaudeWrapper(anthropic_api_key)

# 运行测试
print("运行测试。1 = Cohere，2 = Claude。")
for tcs in travel_chat_starts:
    messages = [{"role":"system", "content":objective},
                {"role":"user", "content":tcs}]

    response_cohere = cohere_model.complete_chat(messages, "assistant")
    response_claude = claude_model.complete_chat(messages, "assistant")

    pref = evaluator.choose(objective, tcs, response_cohere, response_claude)
    print(f"{pref}")

通过这个简单的例子，我们可以看到PhaseLLM如何帮助我们快速搭建一个评估框架，比较不同模型的表现。这种方法可以轻松扩展到更复杂的场景，帮助开发者优化他们的AI产品。