#推理引擎

MNN - 高效轻量的深度学习框架,支持多设备推理和训练
MNN深度学习框架推理引擎轻量级高性能Github开源项目
MNN是一个高效轻量的深度学习框架,支持设备上的推理和训练。已被阿里巴巴30多个应用集成,覆盖直播、短视频、搜索推荐等70多种场景。MNN适用于嵌入式设备,支持TensorFlow、Caffe、ONNX等多种模型格式,并优化了ARM和x64 CPU及多种GPU的计算性能。通过MNN Workbench,用户可以下载预训练模型、进行可视化训练并一键部署到设备上。
Paddle2ONNX - 将PaddlePaddle模型转换为ONNX格式的开源工具
Paddle2ONNXPaddlePaddleONNX模型转换推理引擎Github开源项目
Paddle2ONNX 是一个开源工具,用于将PaddlePaddle模型转换为ONNX格式,使模型能够部署到多种ONNX支持的推理引擎如TensorRT、OpenVINO等。Paddle2ONNX不依赖其他组件,只需通过pip安装即可使用。它提供命令行接口和多种参数选项,支持模型优化与量化,适用于不同的部署需求。了解如何安装、使用及优化Paddle模型到ONNX格式,提升部署效率与性能。
gemma.cpp - 轻量级C++推理引擎 实现Google Gemma模型
gemma.cppC++机器学习推理引擎Gemma模型Github开源项目
gemma.cpp是一个轻量级C++推理引擎,为Google Gemma基础模型提供2B和7B版本的简洁实现。项目专注于简单直接而非通用性,适合实验和研究用途。它易于嵌入其他项目并支持修改,利用Google Highway库实现可移植SIMD优化,为大语言模型研究提供灵活平台。
aphrodite-engine - 开源高性能语言模型推理引擎
Aphrodite语言模型推理引擎AI加速量化技术Github开源项目
Aphrodite是一个开源的语言模型推理引擎,采用vLLM的分页注意力机制实现高效推理。它支持连续批处理、多种量化方法和分布式推理,可为大规模用户提供快速服务。该引擎还具备多种采样方法和8位KV缓存,能够处理更长的上下文并提高吞吐量。Aphrodite目前作为PygmalionAI的官方后端引擎使用。
openperplex_backend_os - AI开源搜索引擎,集成语义分块、结果重排和Google搜索
OpenPerPlexAI搜索引擎语义分块重新排序推理引擎Github开源项目
OpenPerPlex是一个开源AI搜索引擎,整合了Cohere的语义分块、JINA的结果重排和Groq的推理技术。它结合Google搜索功能和Llama 3 70B模型,提供精准的网络搜索。支持Python 3.11+,易于部署和扩展。OpenPerPlex致力于提升AI驱动的搜索体验,为开发者和用户提供更智能的搜索解决方案。
awesome-local-ai - 全面收录开源本地AI工具和解决方案
本地AI开源工具大语言模型推理引擎AI应用Github开源项目
awesome-local-ai收录了多种开源本地AI工具和解决方案,包括推理引擎、用户界面、完整平台、开发工具、用户工具和AI代理等。项目旨在为开发者和用户提供丰富的本地AI资源,便于探索和应用最新AI技术,同时确保数据隐私。此外,还涵盖了LLM排行榜和相关研究论文,为AI领域从业者和爱好者提供全面参考。
ADI-Stable-Diffusion - 基于ONNXRuntime的Stable Diffusion推理框架
Stable DiffusionONNXRuntimeC++推理引擎开源Github开源项目
ADI-Stable-Diffusion是一个C++库和命令行工具,利用ONNXRuntime加速Stable Diffusion模型推理。该项目具有小巧的包体积和高性能,支持多种采样方法和调度器,适用于不同版本的Stable Diffusion模型。它为开发者提供了便捷的工程部署方案,可用于构建灵活的图像生成和编辑应用。
worker-vllm - 基于vLLM的OpenAI兼容无服务器LLM推理端点
vLLMRunPodOpenAILLM推理引擎Github开源项目
worker-vllm是一个基于vLLM推理引擎的OpenAI兼容无服务器端点部署工具。该项目可在RunPod Serverless上快速部署高性能的大语言模型(LLM)推理端点,操作简单便捷。worker-vllm充分利用vLLM的高效推理能力,为开发者提供快速、易用的LLM部署方案,有助于简化AI应用的构建过程。
armnn - 针对Arm架构优化的高性能机器学习推理引擎
Arm NN机器学习推理引擎TensorFlow LiteAndroidGithub开源项目
Arm NN是为Android和Linux平台设计的机器学习推理引擎,针对Arm Cortex-A CPU和Mali GPU进行了优化。通过Arm架构特定优化和Arm Compute Library,Arm NN在性能上表现出色。该引擎支持TensorFlow Lite和ONNX格式模型,提供TF Lite Delegate和解析器,方便开发者将机器学习模型集成到应用中。Arm NN使用C++17编写,可在多种目标平台和主机环境下构建。
inferflow - 为大语言模型提供高效灵活的推理解决方案
Inferflow大语言模型推理引擎模型服务量化Github开源项目
Inferflow是一款功能强大的大语言模型推理引擎,支持多种文件格式和网络结构。它采用3.5位量化和混合并行推理等创新技术,提高了推理效率。用户通过修改配置文件即可部署新模型,无需编写代码。Inferflow支持GPU/CPU混合推理,为模型部署提供灵活选择。该项目为研究人员和开发者提供了高效易用的LLM推理工具。
llmfarm_core.swift - 多功能Swift大语言模型库 支持多种推理和采样
LLMFarm_core大语言模型Swift库推理引擎模型加载Github开源项目
LLMFarm_core是一个Swift大语言模型库,支持LLaMA、GPT、RWKV等多种模型。提供多种推理和采样方法,支持Metal加速,适用于MacOS和iOS。包含模型设置模板和LoRA适配器支持,为LLM应用开发提供灵活工具。
llama.ttf - 嵌入语言模型的智能字体 实现文本智能处理
llama.ttf大语言模型字体文件推理引擎HarfbuzzGithub开源项目
llama.ttf是一个创新的字体文件,内置大型语言模型和推理引擎。它可在支持Harfbuzz和Wasm的环境中使用,无需重新编译应用程序。用户可以通过在LD_PRELOAD中添加libharfbuzz.so和libiwasm.so库,来在gedit或GIMP等应用中启用智能文本处理功能。这种方法为文本编辑和图像处理领域带来了全新的可能性,展示了字体技术与人工智能结合的潜力。