Ollama Grid Search 项目介绍
项目概述
Ollama Grid Search 是一个基于 Rust 编程语言开发的桌面应用程序,专门用于评估大语言模型(LLM)的性能、提示词和模型参数。其核心功能是自动化选择最佳的模型、提示词或推理参数,为用户的不同使用场景提供最优化的组合,并通过直观的图形界面展示结果。
目的
该项目的主要目的是简化选择最佳模型和参数的过程。通过自动迭代各类模型、提示和参数组合,用户可以方便地选择最适合的配置。此外,Ollama Grid Search 允许用户通过视觉化方式检查结果,有效提升了评估的便利性和效率。
快速示例
用户可以使用简单的提示词,测试两个不同的模型,并使用不同的“温度”值(如 0.7 和 1.0)进行实验。让用户对比不同情况下模型输出的效果。
安装指南
用户可以通过项目的发布页面下载安装文件,按照提示完成安装即可。
项目特性
- 模型获取:自动从本地或远程 Ollama 服务器提取模型。
- 多模型和参数迭代:支持对不同模型和推理参数的组合进行迭代。
- A/B 测试:允许同时在多个模型上进行 A/B 测试,以比较不同提示词在相同条件下的输出。
- 有限并发:支持有限并发或同步推理调用,避免对服务器的过度请求。
- 实验管理:用户可以列出、检查和下载实验结果,并以 JSON 格式保存。
- 实验重运行:支持重运行过去的实验,并可对参数进行修改。
- 自定义配置:用户可在设置中定义自定义的默认参数和系统提示词。
网格搜索
虽然术语“网格搜索”通常用于优化训练参数,但在该项目中,用户可以定义模型集合、提示词和参数组合,类似地进行优化和比较不同组合的输出性能。
A/B 测试
除了网格搜索,用户还可以通过选择不同的模型进行 A/B 测试,以对相同提示词或参数组合的不同表现进行比较。这种测试方法可用于探索当提示词变化时,不同模型的响应效果。
实验日志
用户可以方便地列出、查看或下载实验日志,以便于后期分析和记录保存。
未来计划
- 支持按等级对结果进行过滤和分级。
- 将实验和结果存储在本地数据库中。
- 增加导入、导出和共享提示词和实验参数的功能。
贡献方式
用户若发现明显的错误或拼写错误,欢迎直接提交 PR。如需提出新的功能建议或者更复杂的变更,建议先在问题板块进行讨论。
开发指南
开发者需要确保已安装 Rust,并克隆代码库。使用 bun、yarn 或 npm 安装前端依赖,并配置 rust-analyzer
以使用 Clippy
进行代码检查。最后,通过 bun 上的 Tauri 开发模式运行应用程序。
鸣谢
向众多贡献者——例如 @FabianLars、@peperroni21 和 @TomReidNZ 致以诚挚感谢。