#大模型推理

ScaleLLM - 优化大语言模型推理，兼容多种开源模型

ScaleLLM大模型推理高效性能生产环境集成开发Github开源项目

ScaleLLM是一个为大语言模型（LLMs）设计的高效推理系统，适用于生产环境。支持Llama3.1、Gemma2、Bloom、GPT-NeoX等多种开源模型，集成了CUDA图、前缀缓存、分块填充和推测解码等高级功能。项目正在积极开发，目标是提高效率并加入更多特性。现已上架PyPI，可通过pip安装。ScaleLLM还提供兼容OpenAI的REST API和本地聊天机器人UI，支持离线批量推理和在线分布式推理。

bce-qianfan-sdk - AI大模型推理与训练

百度千帆大模型平台SDK大模型推理大模型训练通用与扩展Github开源项目

千帆 SDK 提供访问和使用千帆大模型平台的工具链。核心功能包括：大模型推理（ERNIE系列等）、大模型训练（从数据处理到模型托管），以及通用和扩展功能（Prompt、Debug、Client工具）。支持 Python、Go、Java 和 JavaScript 多种语言，便于用户在多语言环境下快速集成和使用，提升AI工作流效率。

fastllm - 纯C++实现的跨平台大语言模型推理库

fastllm大模型推理多平台c++实现GPU加速Github开源项目

fastllm是一个纯C++实现的大语言模型推理库，无第三方依赖，支持多平台部署。这个开源项目具有快速的推理速度，支持多种模型格式，可实现多卡部署和流式输出。fastllm兼容ChatGLM、Qwen、LLAMA等多种模型，提供Python接口和自定义模型结构功能。该项目适用于需要高效、灵活部署大语言模型的场景。

相关文章

Article Cover

ScaleLLM: 高性能推理系统助力大型语言模型部署

2024年08月31日

Article Cover

BCE-Qianfan-SDK: 优雅访问百度智能云千帆大模型平台的工具链

2024年08月31日

Article Cover

FastLLM: 高性能全平台大语言模型加速库

2024年09月05日

Article Cover

bce-qianfan-sdk 学习资料汇总 - 百度千帆大模型平台 SDK

2024年09月10日

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com

@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号