#LLM推理

mistral.rs入门指南 - 快速高效的LLM推理平台

2 个月前

mistral.rs LLM推理模型量化 Python API HTTP服务器 Github 开源项目

2 个月前

AutoRound：为大型语言模型优化的先进量化算法

3 个月前

AutoRound 量化算法 LLM推理权重量化低位推理 Github 开源项目

3 个月前

T-MAC: 为边缘设备打造的低比特LLM部署神器

3 个月前

T-MAC 低比特量化 CPU加速 LLM推理矩阵乘法 Github 开源项目

3 个月前

DashInfer: 高性能原生LLM推理引擎

3 个月前

DashInfer LLM推理 CPU优化模型量化高性能计算 Github 开源项目

3 个月前

AI00 RWKV Server：一个强大而灵活的本地化AI服务器

3 个月前

AI00 RWKV Server Vulkan加速 ChatGPT兼容开源 LLM推理 Github 开源项目

3 个月前

AI00 Server: 开源高性能本地化AI服务器

3 个月前

AI00 RWKV Server Vulkan加速 ChatGPT兼容开源 LLM推理 Github 开源项目

3 个月前

Jlama: 为Java打造的现代化LLM推理引擎

3 个月前

Jlama Java LLM推理模型支持量化模型 Github 开源项目

3 个月前

Mistral.rs: 高性能LLM推理平台的革新之作

3 个月前

mistral.rs LLM推理模型量化 Python API HTTP服务器 Github 开源项目

3 个月前

相关项目

ai00_server

AI00 RWKV Server是一款高效且易用的推理API服务器，基于RWKV模型，支持Vulkan兼容的所有GPU进行加速，包括AMD显卡和集成图形。无需依赖庞大的pytorch或CUDA环境，开箱即用，并兼容OpenAI的ChatGPT API接口。此服务器完全开源和商用友好，适用于文本生成、翻译、问答等多种任务，是开发大语言模型应用的理想选择。

mistral.rs

mistral.rs是一款支持多种设备、模型量化的大型语言模型(LLM)推理平台，配备与Open-AI API兼容的HTTP服务器和Python绑定，提供快速、精确的模型推理服务。平台支持文本和视觉模型，如AnyMoE、Llama等，采用LoRA技术和动态适配器，提高推理效率。用户可通过API在多种加速器上部署模型，实现快速计算和灵活应用。

Jlama

Jlama是一款面向Java应用的大型语言模型推理引擎，提供对GPT-2、BERT等模型的支持，集成多种分词器。其功能包括闪电注意力、专家混合，同时支持多种数据类型处理。Jlama借助最新Vector API加速推理，可实现分布式处理，适合集成LLM推理的开发者使用。

dash-infer

DashInfer是一款针对x86和ARMv9硬件架构优化的C++推理引擎，支持连续批处理和NUMA感知功能。该引擎可充分发挥现代服务器CPU性能，支持推理参数规模达14B的大语言模型。DashInfer采用轻量架构，提供高精度推理和标准LLM推理技术，兼容主流开源大语言模型，并集成了量化加速和优化计算内核等功能。

T-MAC

T-MAC是一个创新的内核库，采用查找表技术实现混合精度矩阵乘法，无需反量化即可加速CPU上的低比特LLM推理。该框架支持多种低比特模型，包括GPTQ/gguf的W4A16、BitDistiller/EfficientQAT的W2A16和BitNet的W1(.58)A8。T-MAC在多种设备上展现出显著性能提升，例如在Surface Laptop 7上，单核处理速度可达20 tokens/s，四核可达48 tokens/s，比llama.cpp快4~5倍。

auto-round

AutoRound是一种针对大语言模型(LLM)的高效量化算法。通过符号梯度下降优化权重舍入和范围,仅需200步迭代即可达到业界领先水平,且不增加推理开销。该算法支持OPT、BLOOM、GPT-J等多种模型,提供混合精度量化、激活量化等实验功能,并兼容Intel Gaudi2硬件。AutoRound提供简洁的Python接口,方便用户进行模型量化和推理。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com