#LLM加速

Self-Speculative Decoding: 大语言模型推理加速的创新方法

2 个月前

Self-Speculative Decoding LLM加速推理优化草稿验证层跳过 Github 开源项目

2 个月前

SpaceX Falcon 9火箭助推器发生罕见着陆事故

3 个月前

Booster AI绘图 LLM加速 GPT Golang Github 开源项目

3 个月前

相关项目

booster

Large Model Booster利用Golang和C++技术构建高性能且可扩展的LLM推理加速器，适用于生产环境中的GPTs大规模部署和独立模型实验。支持多种现代CPU和GPU，包括Intel、AMD、ARM64、Apple Silicon及Nvidia CUDA等，支持大模型切分及FP16/FP32和量化版本。涵盖LLaMA、Mistral、Gemma等主流LLM架构，提供SOTA Janus Sampling实现。项目提供详细的编译到部署指南，并支持OpenAI和Ollama的兼容API端点。

self-speculative-decoding

Self-Speculative Decoding是ACL 2024的一个开源项目，提出了一种无损加速大型语言模型（LLMs）的新方法。该技术通过草稿生成和验证两个阶段，在不增加额外训练和内存的情况下提高LLM推理速度。这一创新方案保证了输出质量和模型兼容性，为LLM加速提供了高效且易于实施的解决方案。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com