#推理引擎

MNN - 高效轻量的深度学习框架，支持多设备推理和训练

MNN深度学习框架推理引擎轻量级高性能Github开源项目

MNN是一个高效轻量的深度学习框架，支持设备上的推理和训练。已被阿里巴巴30多个应用集成，覆盖直播、短视频、搜索推荐等70多种场景。MNN适用于嵌入式设备，支持TensorFlow、Caffe、ONNX等多种模型格式，并优化了ARM和x64 CPU及多种GPU的计算性能。通过MNN Workbench，用户可以下载预训练模型、进行可视化训练并一键部署到设备上。

Paddle2ONNX - 将PaddlePaddle模型转换为ONNX格式的开源工具

Paddle2ONNXPaddlePaddleONNX模型转换推理引擎Github开源项目

Paddle2ONNX 是一个开源工具，用于将PaddlePaddle模型转换为ONNX格式，使模型能够部署到多种ONNX支持的推理引擎如TensorRT、OpenVINO等。Paddle2ONNX不依赖其他组件，只需通过pip安装即可使用。它提供命令行接口和多种参数选项，支持模型优化与量化，适用于不同的部署需求。了解如何安装、使用及优化Paddle模型到ONNX格式，提升部署效率与性能。

gemma.cpp - 轻量级C++推理引擎实现Google Gemma模型

gemma.cppC++机器学习推理引擎Gemma模型Github开源项目

gemma.cpp是一个轻量级C++推理引擎,为Google Gemma基础模型提供2B和7B版本的简洁实现。项目专注于简单直接而非通用性,适合实验和研究用途。它易于嵌入其他项目并支持修改,利用Google Highway库实现可移植SIMD优化,为大语言模型研究提供灵活平台。

aphrodite-engine - 开源高性能语言模型推理引擎

Aphrodite语言模型推理引擎AI加速量化技术Github开源项目

Aphrodite是一个开源的语言模型推理引擎，采用vLLM的分页注意力机制实现高效推理。它支持连续批处理、多种量化方法和分布式推理，可为大规模用户提供快速服务。该引擎还具备多种采样方法和8位KV缓存，能够处理更长的上下文并提高吞吐量。Aphrodite目前作为PygmalionAI的官方后端引擎使用。

openperplex_backend_os - AI开源搜索引擎，集成语义分块、结果重排和Google搜索

OpenPerPlexAI搜索引擎语义分块重新排序推理引擎Github开源项目

OpenPerPlex是一个开源AI搜索引擎，整合了Cohere的语义分块、JINA的结果重排和Groq的推理技术。它结合Google搜索功能和Llama 3 70B模型，提供精准的网络搜索。支持Python 3.11+，易于部署和扩展。OpenPerPlex致力于提升AI驱动的搜索体验，为开发者和用户提供更智能的搜索解决方案。

awesome-local-ai - 全面收录开源本地AI工具和解决方案

本地AI开源工具大语言模型推理引擎AI应用Github开源项目

awesome-local-ai收录了多种开源本地AI工具和解决方案,包括推理引擎、用户界面、完整平台、开发工具、用户工具和AI代理等。项目旨在为开发者和用户提供丰富的本地AI资源,便于探索和应用最新AI技术,同时确保数据隐私。此外,还涵盖了LLM排行榜和相关研究论文,为AI领域从业者和爱好者提供全面参考。

ADI-Stable-Diffusion - 基于ONNXRuntime的Stable Diffusion推理框架

Stable DiffusionONNXRuntimeC++推理引擎开源Github开源项目

ADI-Stable-Diffusion是一个C++库和命令行工具,利用ONNXRuntime加速Stable Diffusion模型推理。该项目具有小巧的包体积和高性能,支持多种采样方法和调度器,适用于不同版本的Stable Diffusion模型。它为开发者提供了便捷的工程部署方案,可用于构建灵活的图像生成和编辑应用。

worker-vllm - 基于vLLM的OpenAI兼容无服务器LLM推理端点

vLLMRunPodOpenAILLM推理引擎Github开源项目

worker-vllm是一个基于vLLM推理引擎的OpenAI兼容无服务器端点部署工具。该项目可在RunPod Serverless上快速部署高性能的大语言模型(LLM)推理端点,操作简单便捷。worker-vllm充分利用vLLM的高效推理能力,为开发者提供快速、易用的LLM部署方案,有助于简化AI应用的构建过程。

armnn - 针对Arm架构优化的高性能机器学习推理引擎

Arm NN机器学习推理引擎TensorFlow LiteAndroidGithub开源项目

Arm NN是为Android和Linux平台设计的机器学习推理引擎，针对Arm Cortex-A CPU和Mali GPU进行了优化。通过Arm架构特定优化和Arm Compute Library，Arm NN在性能上表现出色。该引擎支持TensorFlow Lite和ONNX格式模型，提供TF Lite Delegate和解析器，方便开发者将机器学习模型集成到应用中。Arm NN使用C++17编写，可在多种目标平台和主机环境下构建。

inferflow - 为大语言模型提供高效灵活的推理解决方案

Inferflow大语言模型推理引擎模型服务量化Github开源项目

Inferflow是一款功能强大的大语言模型推理引擎，支持多种文件格式和网络结构。它采用3.5位量化和混合并行推理等创新技术，提高了推理效率。用户通过修改配置文件即可部署新模型，无需编写代码。Inferflow支持GPU/CPU混合推理，为模型部署提供灵活选择。该项目为研究人员和开发者提供了高效易用的LLM推理工具。

llmfarm_core.swift - 多功能Swift大语言模型库支持多种推理和采样

LLMFarm_core大语言模型Swift库推理引擎模型加载Github开源项目

LLMFarm_core是一个Swift大语言模型库，支持LLaMA、GPT、RWKV等多种模型。提供多种推理和采样方法，支持Metal加速，适用于MacOS和iOS。包含模型设置模板和LoRA适配器支持，为LLM应用开发提供灵活工具。

llama.ttf - 嵌入语言模型的智能字体实现文本智能处理

llama.ttf大语言模型字体文件推理引擎HarfbuzzGithub开源项目

llama.ttf是一个创新的字体文件，内置大型语言模型和推理引擎。它可在支持Harfbuzz和Wasm的环境中使用，无需重新编译应用程序。用户可以通过在LD_PRELOAD中添加libharfbuzz.so和libiwasm.so库，来在gedit或GIMP等应用中启用智能文本处理功能。这种方法为文本编辑和图像处理领域带来了全新的可能性，展示了字体技术与人工智能结合的潜力。

相关文章

Article Cover

Paddle2ONNX: 将PaddlePaddle模型转换为ONNX格式的强大工具

Article Cover

Aphrodite Engine: 为大规模语言模型推理提供高性能解决方案

Article Cover

gemma.cpp: Google开源的轻量级C++推理引擎

Article Cover

OpenPerPlex：开源AI搜索引擎的创新之路

Article Cover

awesome-local-ai：本地AI工具和解决方案的开源资源集合

Article Cover

Arm NN: 加速Arm平台上的机器学习推理

Article Cover

ADI-Stable-Diffusion: 基于ONNXRuntime的高性能Stable Diffusion推理框架

Article Cover

RunPod vLLM Worker: 高效部署大型语言模型的利器

Article Cover

llama.ttf: 一个独特的字体文件中的人工智能

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com

@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号