#大模型推理
ScaleLLM - 优化大语言模型推理,兼容多种开源模型
ScaleLLM大模型推理高效性能生产环境集成开发Github开源项目
ScaleLLM是一个为大语言模型(LLMs)设计的高效推理系统,适用于生产环境。支持Llama3.1、Gemma2、Bloom、GPT-NeoX等多种开源模型,集成了CUDA图、前缀缓存、分块填充和推测解码等高级功能。项目正在积极开发,目标是提高效率并加入更多特性。现已上架PyPI,可通过pip安装。ScaleLLM还提供兼容OpenAI的REST API和本地聊天机器人UI,支持离线批量推理和在线分布式推理。
bce-qianfan-sdk - AI大模型推理与训练
百度千帆大模型平台SDK大模型推理大模型训练通用与扩展Github开源项目
千帆 SDK 提供访问和使用千帆大模型平台的工具链。核心功能包括:大模型推理(ERNIE系列等)、大模型训练(从数据处理到模型托管),以及通用和扩展功能(Prompt、Debug、Client工具)。支持 Python、Go、Java 和 JavaScript 多种语言,便于用户在多语言环境下快速集成和使用,提升AI工作流效率。
fastllm - 纯C++实现的跨平台大语言模型推理库
fastllm大模型推理多平台c++实现GPU加速Github开源项目
fastllm是一个纯C++实现的大语言模型推理库,无第三方依赖,支持多平台部署。这个开源项目具有快速的推理速度,支持多种模型格式,可实现多卡部署和流式输出。fastllm兼容ChatGLM、Qwen、LLAMA等多种模型,提供Python接口和自定义模型结构功能。该项目适用于需要高效、灵活部署大语言模型的场景。
相关文章