#LLM推理

mistral.rs入门指南 - 快速高效的LLM推理平台

2 个月前
Cover of mistral.rs入门指南 - 快速高效的LLM推理平台

AutoRound:为大型语言模型优化的先进量化算法

3 个月前
Cover of AutoRound:为大型语言模型优化的先进量化算法

T-MAC: 为边缘设备打造的低比特LLM部署神器

3 个月前
Cover of T-MAC: 为边缘设备打造的低比特LLM部署神器

DashInfer: 高性能原生LLM推理引擎

3 个月前
Cover of DashInfer: 高性能原生LLM推理引擎

AI00 RWKV Server:一个强大而灵活的本地化AI服务器

3 个月前
Cover of AI00 RWKV Server:一个强大而灵活的本地化AI服务器

AI00 Server: 开源高性能本地化AI服务器

3 个月前
Cover of AI00 Server: 开源高性能本地化AI服务器

Jlama: 为Java打造的现代化LLM推理引擎

3 个月前
Cover of Jlama: 为Java打造的现代化LLM推理引擎

Mistral.rs: 高性能LLM推理平台的革新之作

3 个月前
Cover of Mistral.rs: 高性能LLM推理平台的革新之作
相关项目
Project Cover

ai00_server

AI00 RWKV Server是一款高效且易用的推理API服务器,基于RWKV模型,支持Vulkan兼容的所有GPU进行加速,包括AMD显卡和集成图形。无需依赖庞大的pytorch或CUDA环境,开箱即用,并兼容OpenAI的ChatGPT API接口。此服务器完全开源和商用友好,适用于文本生成、翻译、问答等多种任务,是开发大语言模型应用的理想选择。

Project Cover

mistral.rs

mistral.rs是一款支持多种设备、模型量化的大型语言模型(LLM)推理平台,配备与Open-AI API兼容的HTTP服务器和Python绑定,提供快速、精确的模型推理服务。平台支持文本和视觉模型,如AnyMoE、Llama等,采用LoRA技术和动态适配器,提高推理效率。用户可通过API在多种加速器上部署模型,实现快速计算和灵活应用。

Project Cover

Jlama

Jlama是一款面向Java应用的大型语言模型推理引擎,提供对GPT-2、BERT等模型的支持,集成多种分词器。其功能包括闪电注意力、专家混合,同时支持多种数据类型处理。Jlama借助最新Vector API加速推理,可实现分布式处理,适合集成LLM推理的开发者使用。

Project Cover

dash-infer

DashInfer是一款针对x86和ARMv9硬件架构优化的C++推理引擎,支持连续批处理和NUMA感知功能。该引擎可充分发挥现代服务器CPU性能,支持推理参数规模达14B的大语言模型。DashInfer采用轻量架构,提供高精度推理和标准LLM推理技术,兼容主流开源大语言模型,并集成了量化加速和优化计算内核等功能。

Project Cover

T-MAC

T-MAC是一个创新的内核库,采用查找表技术实现混合精度矩阵乘法,无需反量化即可加速CPU上的低比特LLM推理。该框架支持多种低比特模型,包括GPTQ/gguf的W4A16、BitDistiller/EfficientQAT的W2A16和BitNet的W1(.58)A8。T-MAC在多种设备上展现出显著性能提升,例如在Surface Laptop 7上,单核处理速度可达20 tokens/s,四核可达48 tokens/s,比llama.cpp快4~5倍。

Project Cover

auto-round

AutoRound是一种针对大语言模型(LLM)的高效量化算法。通过符号梯度下降优化权重舍入和范围,仅需200步迭代即可达到业界领先水平,且不增加推理开销。该算法支持OPT、BLOOM、GPT-J等多种模型,提供混合精度量化、激活量化等实验功能,并兼容Intel Gaudi2硬件。AutoRound提供简洁的Python接口,方便用户进行模型量化和推理。

投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号