#LLM推理

ai00_server - 基于RWKV模型的高效且易用的推理API服务器

Github开源项目开源LLM推理AI00 RWKV ServerVulkan加速ChatGPT兼容

AI00 RWKV Server是一款高效且易用的推理API服务器，基于RWKV模型，支持Vulkan兼容的所有GPU进行加速，包括AMD显卡和集成图形。无需依赖庞大的pytorch或CUDA环境，开箱即用，并兼容OpenAI的ChatGPT API接口。此服务器完全开源和商用友好，适用于文本生成、翻译、问答等多种任务，是开发大语言模型应用的理想选择。

mistral.rs - 支持多种设备、模型量化的大型语言模型(LLM)推理平台，配备与Open-AI API兼容的HTTP服务器和Python绑定

Github开源项目模型量化Python APImistral.rsLLM推理HTTP服务器

mistral.rs是一款支持多种设备、模型量化的大型语言模型(LLM)推理平台，配备与Open-AI API兼容的HTTP服务器和Python绑定，提供快速、精确的模型推理服务。平台支持文本和视觉模型，如AnyMoE、Llama等，采用LoRA技术和动态适配器，提高推理效率。用户可通过API在多种加速器上部署模型，实现快速计算和灵活应用。

Jlama - 面向Java应用的大型语言模型推理引擎

Github开源项目模型支持量化模型JavaLLM推理Jlama

Jlama是一款面向Java应用的大型语言模型推理引擎，提供对GPT-2、BERT等模型的支持，集成多种分词器。其功能包括闪电注意力、专家混合，同时支持多种数据类型处理。Jlama借助最新Vector API加速推理，可实现分布式处理，适合集成LLM推理的开发者使用。

dash-infer - 面向x86和ARMv9的高性能大语言模型推理引擎

Github开源项目模型量化高性能计算LLM推理CPU优化DashInfer

DashInfer是一款针对x86和ARMv9硬件架构优化的C++推理引擎，支持连续批处理和NUMA感知功能。该引擎可充分发挥现代服务器CPU性能，支持推理参数规模达14B的大语言模型。DashInfer采用轻量架构，提供高精度推理和标准LLM推理技术，兼容主流开源大语言模型，并集成了量化加速和优化计算内核等功能。

T-MAC - 优化低比特量化LLM推理的CPU加速框架

Github开源项目矩阵乘法LLM推理T-MAC低比特量化CPU加速

T-MAC是一个创新的内核库，采用查找表技术实现混合精度矩阵乘法，无需反量化即可加速CPU上的低比特LLM推理。该框架支持多种低比特模型，包括GPTQ/gguf的W4A16、BitDistiller/EfficientQAT的W2A16和BitNet的W1(.58)A8。T-MAC在多种设备上展现出显著性能提升，例如在Surface Laptop 7上，单核处理速度可达20 tokens/s，四核可达48 tokens/s，比llama.cpp快4~5倍。

auto-round - 针对大语言模型的高效量化算法

Github开源项目LLM推理量化算法AutoRound权重量化低位推理

AutoRound是一种针对大语言模型(LLM)的高效量化算法。通过符号梯度下降优化权重舍入和范围,仅需200步迭代即可达到业界领先水平,且不增加推理开销。该算法支持OPT、BLOOM、GPT-J等多种模型,提供混合精度量化、激活量化等实验功能,并兼容Intel Gaudi2硬件。AutoRound提供简洁的Python接口,方便用户进行模型量化和推理。

相关文章

Article Cover

Mistral.rs: 高性能LLM推理平台的革新之作

Article Cover

Jlama: 为Java打造的现代化LLM推理引擎

Article Cover

AI00 Server: 开源高性能本地化AI服务器

Article Cover

AI00 RWKV Server：一个强大而灵活的本地化AI服务器

Article Cover

DashInfer: 高性能原生LLM推理引擎

Article Cover

T-MAC: 为边缘设备打造的低比特LLM部署神器

Article Cover

AutoRound：为大型语言模型优化的先进量化算法

Article Cover

mistral.rs入门指南 - 快速高效的LLM推理平台

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com

@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号