超棒的本地AI
如果你尝试过Jan桌面版并且喜欢它,请也查看以下开源和/或本地AI工具和解决方案的精彩集合。
欢迎您随时贡献!
列表
- awesome-local-llms - 开源本地LLM推理项目及其GitHub指标表。
- llama-police - Chip Huyen整理的开源LLM工具列表
推理引擎
仓库 | 描述 | 支持的模型格式 | CPU/GPU支持 | UI | 语言 | 平台类型 |
---|---|---|---|---|---|---|
llama.cpp | - 纯C/C++的LLaMA模型推理 | GGML/GGUF | 两者 | ❌ | C/C++ | 文本生成 |
Nitro | - 3MB推理引擎,可嵌入您的应用。使用Llamacpp等 | 两者 | 两者 | ❌ | 文本生成 | |
ollama | - CLI和本地服务器。使用Llamacpp | 两者 | 两者 | ❌ | 文本生成 | |
koboldcpp | - 使用KoboldAI的UI运行各种GGML模型的简单单文件方式 | GGML | 两者 | ✅ | C/C++ | 文本生成 |
LoLLMS | - 大型语言模型之王Web用户界面。 | 几乎所有 | 两者 | ✅ | Python | 文本生成 |
ExLlama | - HF transformers的Llama实现的更节省内存的重写版本 | AutoGPTQ/GPTQ | GPU | ✅ | Python/C++ | 文本生成 |
vLLM | - vLLM是一个快速且易用的LLM推理和服务库。 | GGML/GGUF | 两者 | ❌ | Python | 文本生成 |
SGLang | - 比vLLM高3-5倍的吞吐量(控制流、RadixAttention、KV缓存重用) | Safetensor / AWQ / GPTQ | GPU | ❌ | Python | 文本生成 |
LmDeploy | - LMDeploy是一个用于压缩、部署和服务LLM的工具包。 | Pytorch / Turbomind | 两者 | ❌ | Python/C++ | 文本生成 |
Tensorrt-llm | - 在NVIDIA GPU上高效推理 | Python / C++ 运行时 | 两者 | ❌ | Python/C++ | 文本生成 |
CTransformers | - 使用GGML库在C/C++中实现的Transformer模型的Python绑定 | GGML/GPTQ | 两者 | ❌ | C/C++ | 文本生成 |
llama-cpp-python | - llama.cpp的Python绑定 | GGUF | 两者 | ❌ | Python | 文本生成 |
llama2.rs | - 纯Rust实现的快速llama2解码器 | GPTQ | CPU | ❌ | Rust | 文本生成 |
ExLlamaV2 | - 一个快速推理库,用于在现代消费级GPU上本地运行LLM | GPTQ/EXL2 | GPU | ❌ | Python/C++ | 文本生成 |
LoRAX | - 可扩展到1000多个微调LLM的多LoRA推理服务器 | Safetensor / AWQ / GPTQ | GPU | ❌ | Python/Rust | 文本生成 |
text-generation-inference | - 推理服务工具箱,为每种LLM架构提供优化的内核 | Safetensors / AWQ / GPTQ | 两者 | ❌ | Python/Rust | 文本生成 |
推理UI
- oobabooga - 一个用于大型语言模型的Gradio网页界面。
- LM Studio - 发现、下载和运行本地大语言模型。
- LocalAI - LocalAI是一个即插即用的REST API替代品,兼容OpenAI API规范,用于本地推理。
- FireworksAI - 体验世界上最快的LLM推理平台,无需额外费用即可部署您自己的模型。
- faradav - 离线与AI角色聊天,本地运行,零配置。
- GPT4All - 一个免费使用、本地运行、注重隐私的聊天机器人。
- LLMFarm - 使用GGML库在iOS和MacOS上离线运行llama和其他大型语言模型。
- LlamaChat - LlamaChat允许您在Mac上本地运行LLaMa、Alpaca和GPT4All模型进行聊天。
- LLM as a Chatbot Service - 将LLM作为聊天机器人服务。
- FuLLMetalAi - Fullmetal.Ai是一个分布式的自托管大型语言模型(LLMs)网络。
- Automatic1111 - Stable Diffusion网页界面。
- ComfyUI - 一个功能强大且模块化的Stable Diffusion图形用户界面,具有图形/节点界面。
- Wordflow - 在浏览器中运行、分享和发现AI提示。
- petals - 像BitTorrent一样在家运行LLMs。微调和推理速度比卸载快10倍。
- ChatUI - 为HuggingChat应用提供支持的开源代码库。
- AI-Mask - 为网页应用提供模型推理的浏览器扩展。由web-llm和transformers.js支持。
- everything-rag - 通过易于使用的、100%本地的Gradio聊天机器人与Hugging Face Hub上的(几乎)任何LLM进行交互。
- LmScript - SGLang和Outlines的用户界面
平台/完整解决方案
- H2OAI - H2OGPT 最快、最准确的AI云平台。
- BentoML - BentoML是一个用于构建可靠、可扩展和高效的AI应用程序的框架。
- Predibase - LLMs的无服务器LoRA微调和服务。
开发者工具
- Jan Framework - Jan的核心是一个跨平台、本地优先和AI原生的应用框架,可用于构建任何东西。
- Pinecone - AI的长期记忆。
- PoplarML - PoplarML使用最少的工程努力即可部署生产就绪、可扩展的ML系统。
- Datature - 构建和部署视觉AI的一站式平台。
- One AI - 让生成式AI适用于商业。
- Gooey.AI - 创建您自己的无代码AI工作流程。
- Mixo.io - AI网站构建器。
- Safurai - AI代码助手,帮助您节省修改、优化和搜索代码的时间。
- GitFluence - 一个AI驱动的解决方案,帮助您快速找到正确的命令。立即开始使用Git命令生成器,节省时间。
- Haystack - 一个用于构建NLP应用程序(如代理、语义搜索、问答)的框架,使用语言模型。
- LangChain - 一个用于开发由语言模型驱动的应用程序的框架。
- gpt4all - 一个在大量干净的助手数据(包括代码、故事和对话)上训练的聊天机器人。
- LMQL - LMQL是一种针对大型语言模型的查询语言。
- LlamaIndex - 一个数据框架,用于构建基于外部数据的LLM应用程序。
- Phoenix - 由Arize开发的开源ML可观察性工具,在您的笔记本环境中运行。监控和微调LLM、CV和表格模型。
- trypromptly - 在几分钟内创建AI应用和聊天机器人。
- BentoML - BentoML是软件工程师构建AI产品的平台。
- LiteLLM - 使用OpenAI格式调用所有LLM API。
用户工具
- llmcord.py - Discord LLM聊天机器人 - 与您的朋友一起与LLMs交谈!
代理
- SuperAGI - 开源AGI基础设施。
- Auto-GPT - 一个试图让GPT-4完全自主的开源实验性尝试。
- BabyAGI - Baby AGI是一个使用Python开发的自主AI代理,通过OpenAI和Pinecone API运行。
- AgentGPT - 在浏览器中组装、配置和部署自主AI代理。
- HyperWrite - HyperWrite帮助你更智能、更快速、更轻松地工作。
- AI Agents - 提升你生产力的AI代理。
- AgentRunner.ai - 利用GPT-4的力量创建和训练完全自主的AI代理。
- GPT Engineer - 指定你想要构建的内容,AI会询问澄清,然后构建它。
- GPT Prompt Engineer - 自动化提示工程。它生成、测试和排序提示以找到最佳提示。
- MetaGPT - 多代理框架:给出一行需求,返回PRD、设计、任务、代码库。
- Open Interpreter - 让语言模型运行代码。让你的代理编写和执行代码。
- CrewAI - 用于编排角色扮演、自主AI代理的前沿框架。
训练
- FastChat - 用于训练、服务和评估大型语言模型的开放平台。
- DeepSpeed - DeepSpeed是一个深度学习优化库,使分布式训练和推理变得简单、高效和有效。
- BMTrain - 大型模型的高效训练。
- Alpa - Alpa是一个用于训练和服务大规模神经网络的系统。
- Megatron-LM - 正在进行的大规模训练transformer模型的研究。
- Ludwig - 用于构建自定义LLM、神经网络和其他AI模型的低代码框架。
- Nanotron - 极简的大型语言模型3D并行训练。
- TRL - 使用强化学习进行语言模型对齐。
- PEFT - 参数高效微调(LoRA、DoRA、模型合并等)
LLM排行榜
- Open LLM Leaderboard - 旨在跟踪、排名和评估发布的LLM和聊天机器人。
- Chatbot Arena Leaderboard - 一个大型语言模型(LLM)的基准平台,以众包方式进行匿名、随机对战。
- AlpacaEval Leaderboard - 一个自动评估遵循指令的语言模型的工具。
- LLM-Leaderboard-streamlit - 一个联合社区努力为LLM创建一个中心排行榜。
- lmsys.org - 使用Elo评级对野外LLM进行基准测试。
研究
- 注意力就是一切(2017):介绍了原始的transformer模型。它有助于序列到序列的任务,如机器翻译。[论文]
- BERT:用于语言理解的深度双向Transformers预训练(2018):有助于语言建模和预测任务。[论文]
- FlashAttention:具有IO感知的快速且内存高效的精确注意力机制(2022):改进transformer的机制。[论文]
- 通过生成式预训练提高语言理解(2019):OpenAI关于GPT的论文。[论文]
- Cramming:在一天内用单个GPU训练语言模型(2022):论文专注于一种使用最少计算能力提高性能的方法。[论文]
- LaMDA:对话应用的语言模型(2022):LaMDA是谷歌基于Transformer的神经语言模型系列。[论文]
- 通过人类反馈训练语言模型遵循指令(2022):使用人类反馈来对齐LLM。[论文]
- TurboTransformers:Transformer模型的高效GPU服务系统(PPoPP'21) [论文]
- 大型语言模型的快速分布式推理服务(arXiv'23) [论文]
- 基于CPU的Transformer语言模型的高效稀疏推理软件加速器(arXiv'23) [论文]
- 使用分阶段推测解码加速LLM推理(arXiv'23) [论文]
- ZeRO:面向训练万亿参数模型的内存优化(SC'20) [论文]
- TensorGPT:基于张量列分解的LLM嵌入层高效压缩 2023 [论文]