Logo

#推理

llama.onnx入门指南 - LLaMa/RWKV模型的ONNX转换与量化工具

1 个月前
Cover of llama.onnx入门指南 - LLaMa/RWKV模型的ONNX转换与量化工具

PaddleNLP入门学习资料汇总-易用且强大的NLP开发套件

1 个月前
Cover of PaddleNLP入门学习资料汇总-易用且强大的NLP开发套件

lmdeploy入门学习资料汇总 - 高效的LLM压缩部署和服务工具包

1 个月前
Cover of lmdeploy入门学习资料汇总 - 高效的LLM压缩部署和服务工具包

llama2.c的简明教程:从零开始理解大语言模型推理

2 个月前
Cover of llama2.c的简明教程:从零开始理解大语言模型推理

MarkovJunior:基于模式匹配和约束传播的概率编程语言

2 个月前
Cover of MarkovJunior:基于模式匹配和约束传播的概率编程语言

awesome-language-agents学习资料汇总 - 基于认知架构的语言智能体概览

1 个月前
Cover of awesome-language-agents学习资料汇总 - 基于认知架构的语言智能体概览

RAG-Retrieval入门学习资料-统一高效的RAG检索微调与推理框架

1 个月前
Cover of RAG-Retrieval入门学习资料-统一高效的RAG检索微调与推理框架

Buffer of Thoughts: 一种革命性的大语言模型推理增强框架

2 个月前
Cover of Buffer of Thoughts: 一种革命性的大语言模型推理增强框架

大型语言模型(LLM)资源全面总结:从研究论文到开源项目

2 个月前
Cover of 大型语言模型(LLM)资源全面总结:从研究论文到开源项目

AutoAWQ: 基于AWQ算法的4位量化推理加速工具

2 个月前
Cover of AutoAWQ: 基于AWQ算法的4位量化推理加速工具

相关项目

Project Cover
lmdeploy
LMDeploy是由MMRazor和MMDeploy团队开发的工具包,专注于LLM的压缩、部署和服务。它提供高效的推理性能、有效的量化方法和便捷的分布式服务,显著提升请求吞吐量。支持多种量化方式和多模型服务,兼容性强。最新版本集成了TurboMind和PyTorch推理引擎,支持多种LLMs和VLMs模型,降低开发者的技术门槛。
Project Cover
RAG-Retrieval
RAG-Retrieval项目通过统一方式调用不同RAG排序模型,支持全链路微调与推理。其轻量级Python库扩展性强,适应多种应用场景,提升排序效率。更新内容包括基于LLM监督的微调及其Embedding模型的MRL loss性能提升。
Project Cover
llama.onnx
此项目提供LLaMa-7B和RWKV-400M的ONNX模型与独立演示,无需torch或transformers,适用于2GB内存设备。项目包括内存池支持、温度与topk logits调整,并提供导出混合精度和TVM转换的详细步骤,适用于嵌入式设备和分布式系统的大语言模型部署和推理。
Project Cover
PaddleNLP
PaddleNLP是基于飞桨框架开发的大语言模型套件,提供全面的训练、精调、压缩和部署功能。支持多硬件环境,包括4D并行配置和高效精调策略,适应多种硬件平台,有效降低开发门槛。兼容LLaMA、Bloom等多种主流模型,为大模型开发提供高效解决方案。
Project Cover
awesome-language-agents
该项目汇总了基于CoALA框架的语言代理,实现了动作空间、决策周期等功能。提供了相关核心论文、推特线程及300多篇文献,涵盖从推理到环境互动等多领域前沿研究,旨在优化语言代理的交互、检索和学习能力,有效管理短期和长期记忆。
Project Cover
max
MAX平台是一套集成的AI库、工具和技术,统一了分散的AI部署工作流。通过提供单一开发工具链,MAX显著缩短了创新产品的上市时间,同时具备完全编程能力、卓越的性能和顺畅的硬件兼容性。文档、代码示例和Jupyter笔记本等资源可帮助用户快速起步,并提供社区支持和交流。
Project Cover
ao
torchao是一个用于PyTorch工作流的高性能库,能够创建并集成自定义数据类型和优化技术,实现推理速度提升至2倍,显存减少65%。无需大幅修改代码,保持准确度。支持量化、稀疏化及浮点数优化,适用于HuggingFace等模型。用户可以轻松优化模型,提高计算效率。支持int8、int4和float8等多种数据类型,兼容torch.compile()和FSDP。
Project Cover
chatglm_finetuning
本项目提供详细的ChatGLM系列模型微调教程,支持全参数训练、Lora、AdaLora、IA3及P-Tuning-V2等方法。涵盖最新更新,如支持accelerator和colossalai训练,解除chatglm-6b-int4全参训练限制等。项目包含数据处理、推理脚本及多种训练参数设置,适合深度学习研究与应用。
Project Cover
onnx
ONNX是一个开放生态系统,提供AI模型的开源格式,支持深度学习和传统机器学习。通过定义可扩展的计算图模型和内置操作符及标准数据类型,ONNX增强了不同框架间的互操作性,加速了从研究到生产的转化。ONNX广泛支持各种工具和硬件,助力AI社区快速创新。了解ONNX的文档、教程和预训练模型,加入社区,共同推动ONNX的发展。
投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号