Project Icon

aphrodite-engine

开源高性能语言模型推理引擎

Aphrodite是一个开源的语言模型推理引擎,采用vLLM的分页注意力机制实现高效推理。它支持连续批处理、多种量化方法和分布式推理,可为大规模用户提供快速服务。该引擎还具备多种采样方法和8位KV缓存,能够处理更长的上下文并提高吞吐量。Aphrodite目前作为PygmalionAI的官方后端引擎使用。

为语言注入生命

aphrodite

Aphrodite是PygmalionAI的官方后端引擎。它被设计用作PygmalionAI网站的推理端点,并允许以极快的速度(得益于vLLM的Paged Attention)为大量用户提供Pygmalion模型服务。

Aphrodite建立在并整合了多个项目的杰出工作。

Aphrodite开发所需的计算资源由Arc Compute提供。

特性

  • 连续批处理
  • 使用来自vLLM的PagedAttention进行高效的K/V管理
  • 优化的CUDA内核以提高推理性能
  • 通过AQLM、AWQ、Bitsandbytes、EXL2、GGUF、GPTQ、QuIP#、Smoothquant+和SqueezeLLM支持量化
  • 分布式推理
  • 多种采样方法(Mirostat局部典型采样、无尾采样等)
  • 8位KV缓存,支持FP8和INT8格式,以实现更长的上下文长度和更高的吞吐量。

快速开始

安装引擎:

pip install -U aphrodite-engine --extra-index-url https://downloads.pygmalion.chat/whl

[!重要]
如果你需要最新功能,如Llama 3.1支持,你需要构建发布候选分支。

直接安装:

pip install -U aphrodite-engine@git+https://github.com/PygmalionAI/aphrodite-engine.git@rc_054

或克隆并构建(推荐):

git clone -b rc_054 https://github.com/PygmalionAI/aphrodite-engine.git && cd aphrodite-engine
pip install -e .

然后启动一个模型:

aphrodite run meta-llama/Meta-Llama-3-8B-Instruct

这将创建一个OpenAI兼容的API服务器,可以在本地主机的2242端口访问。你可以将API插入到支持OpenAI的UI中,比如SillyTavern

请参阅wiki获取完整的参数和标志列表,你可以传递给引擎。

你可以在这里的演示中试用引擎:

在Colab中打开

Docker

此外,我们提供了一个Docker镜像以便于部署。以下是一个基本命令来帮助你开始:

sudo docker run -d -e MODEL_NAME="mistralai/Mistral-7B-Instruct-v0.2" -p 2242:2242 --gpus all --ipc host alpindale/aphrodite-engine

这将拉取Aphrodite Engine镜像(约9GiB下载),并在2242端口启动带有Mistral-7B模型的引擎。查看这里获取完整的环境变量列表。

查看这里获取用于Docker Compose的Compose文件。

要求

  • 操作系统:Linux(或Windows的WSL)
  • Python:至少3.8

对于Windows用户,如果不需要批处理支持,建议使用tabbyAPI

构建要求:

  • CUDA >= 11

有关支持的GPU,请参见这里。一般来说,所有半现代GPU都受支持 - 最低至Pascal(GTX 10xx、P40等)。

安装

使用

关于使用,请参阅wiki页面获取详细说明。Aphrodite为LLM推理提供了许多不同的选项,所以请阅读这里的选项列表。

性能

速度因不同的GPU、模型大小、量化方案、批处理大小等而异。以下是通过从API服务器请求尽可能多的完成来进行的一些基准测试。

批处理大小为1的性能

这些是用户在请求单个输出时通常会获得的速度,包括相当大的提示和输出长度。本质上是正常的聊天体验。

以下结果是通过发送8192个提示令牌并请求1024个令牌(设置ignore_eos=True)的请求获得的。

GPU:NVIDIA A40,Mistral 7B。基准是使用text-generation-webui以FP16加载的相同模型。

高批处理大小性能

正在进行中。

注意事项

  1. 默认情况下,Aphrodite会占用GPU 90%的VRAM。如果你不是在大规模服务LLM,你可能想限制它占用的内存量。你可以在API示例中通过使用--gpu-memory-utilization 0.6(0.6表示60%)来启动服务器。

  2. 你可以通过运行aphrodite run --help查看完整的命令列表。

  3. 大多数模型支持通过RoPE方法进行上下文长度扩展。使用命令行标志--max-model-len指定所需的上下文长度,引擎将相应地调整RoPE缩放。

  4. 如果遇到问题,请参阅FAQ和问题。如果你在那里找不到答案,请提出一个issue

致谢

没有其他开源项目的杰出工作,Aphrodite Engine就不可能实现。感谢以下项目:

贡献

欢迎每个人贡献。你可以通过为新功能、修复或一般的用户体验改进开启拉取请求来支持项目。

项目侧边栏1项目侧边栏2
推荐项目
Project Cover

豆包MarsCode

豆包 MarsCode 是一款革命性的编程助手,通过AI技术提供代码补全、单测生成、代码解释和智能问答等功能,支持100+编程语言,与主流编辑器无缝集成,显著提升开发效率和代码质量。

Project Cover

AI写歌

Suno AI是一个革命性的AI音乐创作平台,能在短短30秒内帮助用户创作出一首完整的歌曲。无论是寻找创作灵感还是需要快速制作音乐,Suno AI都是音乐爱好者和专业人士的理想选择。

Project Cover

白日梦AI

白日梦AI提供专注于AI视频生成的多样化功能,包括文生视频、动态画面和形象生成等,帮助用户快速上手,创造专业级内容。

Project Cover

有言AI

有言平台提供一站式AIGC视频创作解决方案,通过智能技术简化视频制作流程。无论是企业宣传还是个人分享,有言都能帮助用户快速、轻松地制作出专业级别的视频内容。

Project Cover

Kimi

Kimi AI助手提供多语言对话支持,能够阅读和理解用户上传的文件内容,解析网页信息,并结合搜索结果为用户提供详尽的答案。无论是日常咨询还是专业问题,Kimi都能以友好、专业的方式提供帮助。

Project Cover

讯飞绘镜

讯飞绘镜是一个支持从创意到完整视频创作的智能平台,用户可以快速生成视频素材并创作独特的音乐视频和故事。平台提供多样化的主题和精选作品,帮助用户探索创意灵感。

Project Cover

讯飞文书

讯飞文书依托讯飞星火大模型,为文书写作者提供从素材筹备到稿件撰写及审稿的全程支持。通过录音智记和以稿写稿等功能,满足事务性工作的高频需求,帮助撰稿人节省精力,提高效率,优化工作与生活。

Project Cover

阿里绘蛙

绘蛙是阿里巴巴集团推出的革命性AI电商营销平台。利用尖端人工智能技术,为商家提供一键生成商品图和营销文案的服务,显著提升内容创作效率和营销效果。适用于淘宝、天猫等电商平台,让商品第一时间被种草。

Project Cover

AIWritePaper论文写作

AIWritePaper论文写作是一站式AI论文写作辅助工具,简化了选题、文献检索至论文撰写的整个过程。通过简单设定,平台可快速生成高质量论文大纲和全文,配合图表、参考文献等一应俱全,同时提供开题报告和答辩PPT等增值服务,保障数据安全,有效提升写作效率和论文质量。

投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号