#AI推理

server - 开源AI推理服务,兼容多种深度学习和机器学习框架
Triton Inference ServerAI推理深度学习框架NVIDIA AI Enterprise模型优化Github开源项目
Triton Inference Server是一款开源推理服务软件,支持TensorRT、TensorFlow、PyTorch等多种深度学习和机器学习框架。它优化了云端、数据中心、边缘和嵌入式设备的推理性能,适用于NVIDIA GPU、x86和ARM CPU,以及AWS Inferentia。主要功能包括动态批处理、模型流水线、HTTP/REST和gRPC协议支持等。通过Triton,用户可以轻松部署和优化AI模型,提升推理效率。
tree-of-thoughts - 提高AI推理能力的先进算法
Tree of ThoughtsAI算法机器学习AI推理Github开源项目
Tree of Thoughts (ToT) 是一种强大且灵活的算法,通过即插即用版本,可显著提高模型推理能力达70%。用户可以连接自己的模型,体验高级智能。项目支持通过Python库安装和使用,并提供详细的使用指南和代码示例,包括如何与Hugging Face Transformers集成。该项目由Princeton University和Google DeepMind的研究人员开发,旨在推进AI推理能力的前沿进展。
chat.petals.dev - 基于Petals客户端的大语言模型推理Web应用和API接口
Petals ChatHTTP APIWebSocket APILLM近似AI推理Github开源项目
本项目提供基于Petals客户端的大语言模型推理Web应用和API接口,包括HTTP和WebSocket端点。用户可通过git克隆项目并按说明在服务器上运行,支持Llama 2模型和Gunicorn部署。项目包含详细的API文档,支持多种生成参数,推荐使用效率更高的WebSocket API。生产环境中建议自行搭建后端以提高稳定性。
CogCoM - 链式操作助力视觉语言模型精细化理解
CogCoM视觉语言模型Chain of Manipulations多模态AI推理Github开源项目
CogCoM是一个新型视觉语言模型,采用链式操作技术逐步处理复杂视觉问题。该项目包含6种基本操作、级联数据生成流程和多轮多图像模型架构。CogCoM在对话、描述、定位和推理等方面表现出色,并在GQA、TallyVQA等多项基准测试中取得优异成绩。这个开源项目为研究人员提供了完整的代码、模型和数据集,促进了视觉语言模型在细节理解领域的发展。
TensorRT-LLM - NVIDIA开发的大型语言模型推理优化工具
TensorRT-LLM大语言模型GPU加速AI推理NVIDIAGithub开源项目
TensorRT-LLM是一个用于优化大型语言模型推理的开源工具。它提供Python API来定义模型和构建TensorRT引擎,支持多GPU和多节点部署。该工具集成了多种量化技术,如INT4/INT8权重量化和SmoothQuant,以提升性能和降低内存占用。TensorRT-LLM预置了多个常用模型,可根据需求进行修改和扩展。
OctoAI - 专业GenAI推理服务平台提供高效可靠解决方案
AI工具GenAIOctoAI模型优化AI推理企业级服务
OctoAI是专业的GenAI推理服务平台,提供高效可靠的生成式AI解决方案。支持最新优化模型和微调,可在SaaS或私有环境中构建应用。平台提供文本和媒体生成API,以及OctoStack部署选项。具有高达99.999%的运行时间,优化性能和成本,支持模型自定义。通过SOC 2 Type II和HIPAA认证,确保数据安全。
Lamini - 提供高精度LLM推理和微调服务的企业平台
AI工具LaminiLLM企业级平台AI推理模型微调
Lamini是一个面向企业的大型语言模型平台,为软件团队提供快速开发和控制LLM的能力。平台内置最佳实践,可在海量专有文档上优化模型,提高性能并确保安全。Lamini支持本地和云端部署,是首个可在AMD GPU上运行并大规模扩展的LLM平台。目前已被多家大型企业和AI初创公司采用,实现了95%的准确率,查询处理能力是vLLM的52倍。
GPUX - 专注AI推理的无服务器GPU平台
AI工具GPUXAI推理GPU服务机器学习云计算
GPUX是一个无服务器GPU平台,专注于AI推理任务。它支持StableDiffusion、SDXL和Whisper等多种AI模型的快速部署和运行。平台具有1秒冷启动、读写卷和P2P等特性,并允许用户在私有模型上为其他组织提供服务。GPUX针对机器学习工作负载进行了优化,为AI推理任务提供高效的运行环境。
neurallambda - 将Lambda演算引入神经网络的AI推理框架
neurallambdaAI推理Lambda演算神经符号系统可微分编程Github开源项目
neurallambda是一个开源项目,致力于将Lambda演算引入神经网络以增强AI推理能力。该项目提供可微分环境,支持执行任意程序并与现有神经网络架构兼容。通过实现神经栈、队列和可寻址内存等组件,为AI系统添加推理功能。目前已实现程序执行,后续将研究程序验证和生成等高级推理能力。
libvpl - 开源GPU加速视频处理库
Intel VPLGPU加速视频处理AI推理硬件加速Github开源项目
Intel VPL是开源的GPU加速视频处理库,提供硬件加速的视频解码、编码和处理功能。适用于AI视觉推理、媒体传输、云游戏等场景。包含API头文件、调度器和示例代码,支持多种GPU平台。可通过源码或包管理器安装,并支持CMake和pkg-config集成。使用时需安装至少一个实现库。
Mistral-7B-Instruct-v0.2-AWQ - Mistral-7B-Instruct-v0.2改进版指令微调大语言模型
模型AI推理AWQ模型量化Mistral-7B-Instruct-v0.2Github文本生成Huggingface开源项目
Mistral-7B-Instruct-v0.2是Mistral AI团队开发的改进版指令微调大语言模型。基于Mistral-7B-v0.1架构,采用分组查询注意力和滑动窗口注意力技术。支持[INST]和[/INST]标记的指令格式,提供聊天模板功能。模型性能出色,但缺乏审核机制。适用于需要无限制输出的应用场景,展示了基础模型易于微调并获得优秀性能。
Noromaid-13B-v0.3-GGUF - 高效本地部署的大规模语言模型GGUF量化版本,支持多种精度选项
NoromaidGithubllama.cppHuggingfaceAI推理GGUF开源项目模型量化模型
Noromaid-13B模型的GGUF量化版本提供2-8位精度选项,支持CPU和GPU部署。模型采用Alpaca提示模板,与llama.cpp等框架兼容。文件大小范围为5.43GB至13.83GB,Q4_K_M版本可实现性能与质量的平衡。模型基于cc-by-nc-4.0和Meta Llama 2许可发布。
Delexa-7b - 多基准测试中展现出色表现的开源语言模型探索
评估结果开源项目模型GithubHuggingfaceAI推理Delexa-7b文本生成语言模型
Delexa-7b是开源的大型语言模型,在通用语言任务中表现优越。其在多项基准测试中,包括HellaSwag Challenge,获得了86.49%的准确率。该模型支持生成特定内容,并具备不生成非法内容的能力。在llm-judge平台上的初步评估中,Delexa-7b取得了8.143750的平均得分。其应用领域涵盖STEM推理和AI开发实验,需注意在使用时避免可能的有害生成内容。