ChainForge - 开源视觉编程环境，用于测试和评估大型语言模型的提示效果

ChainForge 项目介绍

ChainForge 是一个开源码的可视化编程环境，专为针对大型语言模型（LLM）的提示进行压力测试而设计。

什么是 ChainForge？

ChainForge 是一个数据流提示工程环境，旨在用于分析和评估大型语言模型（LLM）的响应。它主要用于早期的、简明的提示探索，超越了与单个 LLM 的随意聊天。通过 ChainForge，用户可以：

同时查询多个 LLM，以快速有效地测试提示想法和变体。
比较不同模型设置和提示排列的响应质量，以选择最适合自己使用场景的提示和模型。
设置评估指标（评分函数），并立即可视化跨提示、提示参数、模型和模型设置的结果。
同时在多个模板参数和聊天模型上保持对话。不仅可以模板提示，还可以模板化后续聊天消息，并在每次聊天对话轮次检查和评估输出。

ChainForge 提供了一系列示例评估流程，包括根据 OpenAI 的评估基准生成的 188 个示例流程，让用户了解应用的可能性。

支持的模型提供商

此项目目前处于开放测试版本，支持的模型提供商包括：OpenAI、HuggingFace、Anthropic、Google PaLM2、Microsoft Azure OpenAI 端点，以及 Alpaca 和 Llama 等 Dalai 托管的模型。用户可以更改确切的模型和个体模型设置。可视化节点支持数值和布尔型评估指标。