#AI推理

Tree of Thoughts (ToT) 入门学习资料 - 提升大语言模型推理能力的创新方法

3 个月前

Tree of Thoughts AI 算法机器学习 AI推理 Github 开源项目

3 个月前

Server入门学习资料 - 优化的云和边缘推理解决方案

3 个月前

Triton Inference Server AI推理深度学习框架 NVIDIA AI Enterprise 模型优化 Github 开源项目

3 个月前

Intel® Video Processing Library (Intel® VPL): 强大的视频处理加速库

3 个月前

Intel VPL GPU加速视频处理 AI推理硬件加速 Github 开源项目

3 个月前

Neural Lambda Calculus: 探索面向推理的可微分编程新境界

3 个月前

neurallambda AI推理 Lambda演算神经符号系统可微分编程 Github 开源项目

3 个月前

TensorRT-LLM:NVIDIA推出的大型语言模型推理加速工具箱

3 个月前

TensorRT-LLM 大语言模型 GPU加速 AI推理 NVIDIA Github 开源项目

3 个月前

CogCoM:通过链式操作深入细节的大规模视觉语言模型训练

3 个月前

CogCoM 视觉语言模型 Chain of Manipulations 多模态 AI推理 Github 开源项目

3 个月前

Petals: 革命性的分布式大语言模型运行平台

2024年08月31日

Petals Chat HTTP API WebSocket API LLM近似 AI推理 Github 开源项目

2024年08月31日

Tree of Thoughts: 提升大语言模型推理能力的创新框架

2024年08月30日

Tree of Thoughts AI 算法机器学习 AI推理 Github 开源项目

2024年08月30日

Triton Inference Server: 高性能AI推理服务器

2024年08月30日

Triton Inference Server AI推理深度学习框架 NVIDIA AI Enterprise 模型优化 Github 开源项目

2024年08月30日

相关项目

server

Triton Inference Server是一款开源推理服务软件，支持TensorRT、TensorFlow、PyTorch等多种深度学习和机器学习框架。它优化了云端、数据中心、边缘和嵌入式设备的推理性能，适用于NVIDIA GPU、x86和ARM CPU，以及AWS Inferentia。主要功能包括动态批处理、模型流水线、HTTP/REST和gRPC协议支持等。通过Triton，用户可以轻松部署和优化AI模型，提升推理效率。

tree-of-thoughts

Tree of Thoughts (ToT) 是一种强大且灵活的算法，通过即插即用版本，可显著提高模型推理能力达70%。用户可以连接自己的模型，体验高级智能。项目支持通过Python库安装和使用，并提供详细的使用指南和代码示例，包括如何与Hugging Face Transformers集成。该项目由Princeton University和Google DeepMind的研究人员开发，旨在推进AI推理能力的前沿进展。

chat.petals.dev

本项目提供基于Petals客户端的大语言模型推理Web应用和API接口，包括HTTP和WebSocket端点。用户可通过git克隆项目并按说明在服务器上运行，支持Llama 2模型和Gunicorn部署。项目包含详细的API文档，支持多种生成参数，推荐使用效率更高的WebSocket API。生产环境中建议自行搭建后端以提高稳定性。

CogCoM

CogCoM是一个新型视觉语言模型，采用链式操作技术逐步处理复杂视觉问题。该项目包含6种基本操作、级联数据生成流程和多轮多图像模型架构。CogCoM在对话、描述、定位和推理等方面表现出色，并在GQA、TallyVQA等多项基准测试中取得优异成绩。这个开源项目为研究人员提供了完整的代码、模型和数据集，促进了视觉语言模型在细节理解领域的发展。

TensorRT-LLM

TensorRT-LLM是一个用于优化大型语言模型推理的开源工具。它提供Python API来定义模型和构建TensorRT引擎，支持多GPU和多节点部署。该工具集成了多种量化技术，如INT4/INT8权重量化和SmoothQuant，以提升性能和降低内存占用。TensorRT-LLM预置了多个常用模型，可根据需求进行修改和扩展。

OctoAI

OctoAI是专业的GenAI推理服务平台，提供高效可靠的生成式AI解决方案。支持最新优化模型和微调，可在SaaS或私有环境中构建应用。平台提供文本和媒体生成API，以及OctoStack部署选项。具有高达99.999%的运行时间，优化性能和成本，支持模型自定义。通过SOC 2 Type II和HIPAA认证，确保数据安全。

Lamini

Lamini是一个面向企业的大型语言模型平台，为软件团队提供快速开发和控制LLM的能力。平台内置最佳实践，可在海量专有文档上优化模型，提高性能并确保安全。Lamini支持本地和云端部署，是首个可在AMD GPU上运行并大规模扩展的LLM平台。目前已被多家大型企业和AI初创公司采用，实现了95%的准确率，查询处理能力是vLLM的52倍。

GPUX

GPUX是一个无服务器GPU平台，专注于AI推理任务。它支持StableDiffusion、SDXL和Whisper等多种AI模型的快速部署和运行。平台具有1秒冷启动、读写卷和P2P等特性，并允许用户在私有模型上为其他组织提供服务。GPUX针对机器学习工作负载进行了优化，为AI推理任务提供高效的运行环境。

neurallambda

neurallambda是一个开源项目,致力于将Lambda演算引入神经网络以增强AI推理能力。该项目提供可微分环境,支持执行任意程序并与现有神经网络架构兼容。通过实现神经栈、队列和可寻址内存等组件,为AI系统添加推理功能。目前已实现程序执行,后续将研究程序验证和生成等高级推理能力。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com