#AI推理

Tree of Thoughts (ToT) 入门学习资料 - 提升大语言模型推理能力的创新方法

2024年09月10日
Cover of Tree of Thoughts (ToT) 入门学习资料 - 提升大语言模型推理能力的创新方法

Server入门学习资料 - 优化的云和边缘推理解决方案

2024年09月10日
Cover of Server入门学习资料 - 优化的云和边缘推理解决方案

Intel® Video Processing Library (Intel® VPL): 强大的视频处理加速库

2024年09月05日
Cover of Intel® Video Processing Library (Intel® VPL): 强大的视频处理加速库

Neural Lambda Calculus: 探索面向推理的可微分编程新境界

2024年09月05日
Cover of Neural Lambda Calculus: 探索面向推理的可微分编程新境界

TensorRT-LLM:NVIDIA推出的大型语言模型推理加速工具箱

2024年09月05日
Cover of TensorRT-LLM:NVIDIA推出的大型语言模型推理加速工具箱

CogCoM:通过链式操作深入细节的大规模视觉语言模型训练

2024年09月05日
Cover of CogCoM:通过链式操作深入细节的大规模视觉语言模型训练

Petals: 革命性的分布式大语言模型运行平台

2024年08月31日
Cover of Petals: 革命性的分布式大语言模型运行平台

Tree of Thoughts: 提升大语言模型推理能力的创新框架

2024年08月30日
Cover of Tree of Thoughts: 提升大语言模型推理能力的创新框架

Triton Inference Server: 高性能AI推理服务器

2024年08月30日
Cover of Triton Inference Server: 高性能AI推理服务器
相关项目
Project Cover

server

Triton Inference Server是一款开源推理服务软件,支持TensorRT、TensorFlow、PyTorch等多种深度学习和机器学习框架。它优化了云端、数据中心、边缘和嵌入式设备的推理性能,适用于NVIDIA GPU、x86和ARM CPU,以及AWS Inferentia。主要功能包括动态批处理、模型流水线、HTTP/REST和gRPC协议支持等。通过Triton,用户可以轻松部署和优化AI模型,提升推理效率。

Project Cover

tree-of-thoughts

Tree of Thoughts (ToT) 是一种强大且灵活的算法,通过即插即用版本,可显著提高模型推理能力达70%。用户可以连接自己的模型,体验高级智能。项目支持通过Python库安装和使用,并提供详细的使用指南和代码示例,包括如何与Hugging Face Transformers集成。该项目由Princeton University和Google DeepMind的研究人员开发,旨在推进AI推理能力的前沿进展。

Project Cover

chat.petals.dev

本项目提供基于Petals客户端的大语言模型推理Web应用和API接口,包括HTTP和WebSocket端点。用户可通过git克隆项目并按说明在服务器上运行,支持Llama 2模型和Gunicorn部署。项目包含详细的API文档,支持多种生成参数,推荐使用效率更高的WebSocket API。生产环境中建议自行搭建后端以提高稳定性。

Project Cover

CogCoM

CogCoM是一个新型视觉语言模型,采用链式操作技术逐步处理复杂视觉问题。该项目包含6种基本操作、级联数据生成流程和多轮多图像模型架构。CogCoM在对话、描述、定位和推理等方面表现出色,并在GQA、TallyVQA等多项基准测试中取得优异成绩。这个开源项目为研究人员提供了完整的代码、模型和数据集,促进了视觉语言模型在细节理解领域的发展。

Project Cover

TensorRT-LLM

TensorRT-LLM是一个用于优化大型语言模型推理的开源工具。它提供Python API来定义模型和构建TensorRT引擎,支持多GPU和多节点部署。该工具集成了多种量化技术,如INT4/INT8权重量化和SmoothQuant,以提升性能和降低内存占用。TensorRT-LLM预置了多个常用模型,可根据需求进行修改和扩展。

Project Cover

OctoAI

OctoAI是专业的GenAI推理服务平台,提供高效可靠的生成式AI解决方案。支持最新优化模型和微调,可在SaaS或私有环境中构建应用。平台提供文本和媒体生成API,以及OctoStack部署选项。具有高达99.999%的运行时间,优化性能和成本,支持模型自定义。通过SOC 2 Type II和HIPAA认证,确保数据安全。

Project Cover

Lamini

Lamini是一个面向企业的大型语言模型平台,为软件团队提供快速开发和控制LLM的能力。平台内置最佳实践,可在海量专有文档上优化模型,提高性能并确保安全。Lamini支持本地和云端部署,是首个可在AMD GPU上运行并大规模扩展的LLM平台。目前已被多家大型企业和AI初创公司采用,实现了95%的准确率,查询处理能力是vLLM的52倍。

Project Cover

GPUX

GPUX是一个无服务器GPU平台,专注于AI推理任务。它支持StableDiffusion、SDXL和Whisper等多种AI模型的快速部署和运行。平台具有1秒冷启动、读写卷和P2P等特性,并允许用户在私有模型上为其他组织提供服务。GPUX针对机器学习工作负载进行了优化,为AI推理任务提供高效的运行环境。

Project Cover

neurallambda

neurallambda是一个开源项目,致力于将Lambda演算引入神经网络以增强AI推理能力。该项目提供可微分环境,支持执行任意程序并与现有神经网络架构兼容。通过实现神经栈、队列和可寻址内存等组件,为AI系统添加推理功能。目前已实现程序执行,后续将研究程序验证和生成等高级推理能力。

投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号