#AI推理

server - 开源AI推理服务，兼容多种深度学习和机器学习框架

Triton Inference ServerAI推理深度学习框架NVIDIA AI Enterprise模型优化Github开源项目

Triton Inference Server是一款开源推理服务软件，支持TensorRT、TensorFlow、PyTorch等多种深度学习和机器学习框架。它优化了云端、数据中心、边缘和嵌入式设备的推理性能，适用于NVIDIA GPU、x86和ARM CPU，以及AWS Inferentia。主要功能包括动态批处理、模型流水线、HTTP/REST和gRPC协议支持等。通过Triton，用户可以轻松部署和优化AI模型，提升推理效率。

tree-of-thoughts - 提高AI推理能力的先进算法

Tree of ThoughtsAI算法机器学习AI推理Github开源项目

Tree of Thoughts (ToT) 是一种强大且灵活的算法，通过即插即用版本，可显著提高模型推理能力达70%。用户可以连接自己的模型，体验高级智能。项目支持通过Python库安装和使用，并提供详细的使用指南和代码示例，包括如何与Hugging Face Transformers集成。该项目由Princeton University和Google DeepMind的研究人员开发，旨在推进AI推理能力的前沿进展。

chat.petals.dev - 基于Petals客户端的大语言模型推理Web应用和API接口

Petals ChatHTTP APIWebSocket APILLM近似AI推理Github开源项目

本项目提供基于Petals客户端的大语言模型推理Web应用和API接口，包括HTTP和WebSocket端点。用户可通过git克隆项目并按说明在服务器上运行，支持Llama 2模型和Gunicorn部署。项目包含详细的API文档，支持多种生成参数，推荐使用效率更高的WebSocket API。生产环境中建议自行搭建后端以提高稳定性。

CogCoM - 链式操作助力视觉语言模型精细化理解

CogCoM视觉语言模型Chain of Manipulations多模态AI推理Github开源项目

CogCoM是一个新型视觉语言模型，采用链式操作技术逐步处理复杂视觉问题。该项目包含6种基本操作、级联数据生成流程和多轮多图像模型架构。CogCoM在对话、描述、定位和推理等方面表现出色，并在GQA、TallyVQA等多项基准测试中取得优异成绩。这个开源项目为研究人员提供了完整的代码、模型和数据集，促进了视觉语言模型在细节理解领域的发展。

TensorRT-LLM - NVIDIA开发的大型语言模型推理优化工具

TensorRT-LLM大语言模型GPU加速AI推理NVIDIAGithub开源项目

TensorRT-LLM是一个用于优化大型语言模型推理的开源工具。它提供Python API来定义模型和构建TensorRT引擎，支持多GPU和多节点部署。该工具集成了多种量化技术，如INT4/INT8权重量化和SmoothQuant，以提升性能和降低内存占用。TensorRT-LLM预置了多个常用模型，可根据需求进行修改和扩展。

OctoAI - 专业GenAI推理服务平台提供高效可靠解决方案

AI工具GenAIOctoAI模型优化AI推理企业级服务

OctoAI是专业的GenAI推理服务平台，提供高效可靠的生成式AI解决方案。支持最新优化模型和微调，可在SaaS或私有环境中构建应用。平台提供文本和媒体生成API，以及OctoStack部署选项。具有高达99.999%的运行时间，优化性能和成本，支持模型自定义。通过SOC 2 Type II和HIPAA认证，确保数据安全。

Lamini - 提供高精度LLM推理和微调服务的企业平台

AI工具LaminiLLM企业级平台AI推理模型微调

Lamini是一个面向企业的大型语言模型平台，为软件团队提供快速开发和控制LLM的能力。平台内置最佳实践，可在海量专有文档上优化模型，提高性能并确保安全。Lamini支持本地和云端部署，是首个可在AMD GPU上运行并大规模扩展的LLM平台。目前已被多家大型企业和AI初创公司采用，实现了95%的准确率，查询处理能力是vLLM的52倍。

GPUX - 专注AI推理的无服务器GPU平台

AI工具GPUXAI推理GPU服务机器学习云计算

GPUX是一个无服务器GPU平台，专注于AI推理任务。它支持StableDiffusion、SDXL和Whisper等多种AI模型的快速部署和运行。平台具有1秒冷启动、读写卷和P2P等特性，并允许用户在私有模型上为其他组织提供服务。GPUX针对机器学习工作负载进行了优化，为AI推理任务提供高效的运行环境。

neurallambda - 将Lambda演算引入神经网络的AI推理框架

neurallambdaAI推理Lambda演算神经符号系统可微分编程Github开源项目

neurallambda是一个开源项目,致力于将Lambda演算引入神经网络以增强AI推理能力。该项目提供可微分环境,支持执行任意程序并与现有神经网络架构兼容。通过实现神经栈、队列和可寻址内存等组件,为AI系统添加推理功能。目前已实现程序执行,后续将研究程序验证和生成等高级推理能力。

libvpl - 开源GPU加速视频处理库

Intel VPLGPU加速视频处理AI推理硬件加速Github开源项目

Intel VPL是开源的GPU加速视频处理库，提供硬件加速的视频解码、编码和处理功能。适用于AI视觉推理、媒体传输、云游戏等场景。包含API头文件、调度器和示例代码，支持多种GPU平台。可通过源码或包管理器安装，并支持CMake和pkg-config集成。使用时需安装至少一个实现库。

Mistral-7B-Instruct-v0.2-AWQ - Mistral-7B-Instruct-v0.2改进版指令微调大语言模型

模型AI推理AWQ模型量化Mistral-7B-Instruct-v0.2Github文本生成Huggingface开源项目

Mistral-7B-Instruct-v0.2是Mistral AI团队开发的改进版指令微调大语言模型。基于Mistral-7B-v0.1架构,采用分组查询注意力和滑动窗口注意力技术。支持[INST]和[/INST]标记的指令格式,提供聊天模板功能。模型性能出色,但缺乏审核机制。适用于需要无限制输出的应用场景,展示了基础模型易于微调并获得优秀性能。

Noromaid-13B-v0.3-GGUF - 高效本地部署的大规模语言模型GGUF量化版本，支持多种精度选项

NoromaidGithubllama.cppHuggingfaceAI推理GGUF开源项目模型量化模型

Noromaid-13B模型的GGUF量化版本提供2-8位精度选项，支持CPU和GPU部署。模型采用Alpaca提示模板，与llama.cpp等框架兼容。文件大小范围为5.43GB至13.83GB，Q4_K_M版本可实现性能与质量的平衡。模型基于cc-by-nc-4.0和Meta Llama 2许可发布。

Delexa-7b - 多基准测试中展现出色表现的开源语言模型探索

评估结果开源项目模型GithubHuggingfaceAI推理Delexa-7b文本生成语言模型

Delexa-7b是开源的大型语言模型，在通用语言任务中表现优越。其在多项基准测试中，包括HellaSwag Challenge，获得了86.49%的准确率。该模型支持生成特定内容，并具备不生成非法内容的能力。在llm-judge平台上的初步评估中，Delexa-7b取得了8.143750的平均得分。其应用领域涵盖STEM推理和AI开发实验，需注意在使用时避免可能的有害生成内容。

相关文章

Article Cover

Triton Inference Server: 高性能AI推理服务器

Article Cover

Tree of Thoughts: 提升大语言模型推理能力的创新框架

Article Cover

Petals: 革命性的分布式大语言模型运行平台

Article Cover

CogCoM:通过链式操作深入细节的大规模视觉语言模型训练

Article Cover

TensorRT-LLM:NVIDIA推出的大型语言模型推理加速工具箱

Article Cover

Neural Lambda Calculus: 探索面向推理的可微分编程新境界

Article Cover

Intel® Video Processing Library (Intel® VPL): 强大的视频处理加速库

Article Cover

Server入门学习资料 - 优化的云和边缘推理解决方案

Article Cover

Tree of Thoughts (ToT) 入门学习资料 - 提升大语言模型推理能力的创新方法

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com

@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号