#推理

llama.onnx入门指南 - LLaMa/RWKV模型的ONNX转换与量化工具

1 个月前

llama.onnx是一个开源项目,提供了将LLaMa和RWKV等大型语言模型转换为ONNX格式的工具,并支持模型量化和推理加速。本文介绍了该项目的主要功能、使用方法和相关资源。

LLaMa RWKV onnx模型量化推理 Github 开源项目

1 个月前

PaddleNLP入门学习资料汇总-易用且强大的NLP开发套件

1 个月前

PaddleNLP是基于飞桨深度学习框架的NLP开发套件,支持多种NLP任务,包括文本分类、神经搜索、问答系统、信息抽取等。本文汇总了PaddleNLP的学习资源,帮助开发者快速上手。

PaddleNLP 大模型训练推理飞桨 Github 开源项目

1 个月前

lmdeploy入门学习资料汇总 - 高效的LLM压缩部署和服务工具包

1 个月前

lmdeploy是一个用于压缩、部署和服务大型语言模型(LLM)的工具包。本文汇总了lmdeploy的学习资源,帮助大家快速入门和使用这个高效的LLM部署框架。

LMDeploy 量化推理多模态模型部署 Github 开源项目

1 个月前

llama2.c的简明教程:从零开始理解大语言模型推理

2 个月前

本文通过对llama2.c代码的逐行解析,深入浅出地讲解了大语言模型推理的全过程,帮助读者从零开始理解Transformer模型的工作原理。

Llama2.c 推理 Transformer架构前向传播权重矩阵 Github 开源项目

2 个月前

MarkovJunior:基于模式匹配和约束传播的概率编程语言

2 个月前

MarkovJunior是一种新颖的概率编程语言,通过重写规则和约束传播来生成复杂的结构和行为。它可以用于创建迷宫、建筑、谜题等多种有趣的模拟。

MarkovJunior 概率编程重写规则推理算法 Github 开源项目

2 个月前

awesome-language-agents学习资料汇总 - 基于认知架构的语言智能体概览

1 个月前

本文汇总了awesome-language-agents项目的相关学习资源,包括论文、代码库、教程等,为读者提供了一份全面的语言智能体学习指南。

CoALA 认知架构语言代理推理学习 Github 开源项目

1 个月前

RAG-Retrieval入门学习资料-统一高效的RAG检索微调与推理框架

1 个月前

RAG-Retrieval是一个提供全链路RAG检索微调和推理的开源框架,支持多种检索模型的微调和统一推理接口,助力构建高效的检索增强生成系统。

RAG-Retrieval 微调推理排序模型检索模型 Github 开源项目

1 个月前

Buffer of Thoughts: 一种革命性的大语言模型推理增强框架

2 个月前

Buffer of Thoughts (BoT)是一种新颖而多功能的思维增强推理方法，旨在提高大语言模型(LLMs)的准确性、效率和鲁棒性。通过引入元缓冲区和缓冲区管理器，BoT实现了跨任务的知识迁移和动态更新，在多项挑战性任务中取得了显著的性能提升。

Buffer of Thoughts 大语言模型推理性能提升思维模板 Github 开源项目

2 个月前

大型语言模型(LLM)资源全面总结：从研究论文到开源项目

2 个月前

本文全面总结了大型语言模型(LLM)领域的重要资源,包括最新研究论文、开源指令数据集、开源模型等,为研究人员和开发者提供了一站式的LLM学习资料库。

大语言模型 LLM 微调推理评估 RAG Github 开源项目

2 个月前

AutoAWQ: 基于AWQ算法的4位量化推理加速工具

2 个月前

AutoAWQ实现了AWQ算法进行4位量化,在推理过程中可以获得2倍的加速。该工具易于使用,支持多种主流大语言模型,是一个高效的模型压缩和加速解决方案。

AutoAWQ 量化推理 GPU加速大语言模型 Github 开源项目

2 个月前

相关项目

lmdeploy

LMDeploy是由MMRazor和MMDeploy团队开发的工具包，专注于LLM的压缩、部署和服务。它提供高效的推理性能、有效的量化方法和便捷的分布式服务，显著提升请求吞吐量。支持多种量化方式和多模型服务，兼容性强。最新版本集成了TurboMind和PyTorch推理引擎，支持多种LLMs和VLMs模型，降低开发者的技术门槛。

RAG-Retrieval

RAG-Retrieval项目通过统一方式调用不同RAG排序模型，支持全链路微调与推理。其轻量级Python库扩展性强，适应多种应用场景，提升排序效率。更新内容包括基于LLM监督的微调及其Embedding模型的MRL loss性能提升。

llama.onnx

此项目提供LLaMa-7B和RWKV-400M的ONNX模型与独立演示，无需torch或transformers，适用于2GB内存设备。项目包括内存池支持、温度与topk logits调整，并提供导出混合精度和TVM转换的详细步骤，适用于嵌入式设备和分布式系统的大语言模型部署和推理。

PaddleNLP

PaddleNLP是基于飞桨框架开发的大语言模型套件，提供全面的训练、精调、压缩和部署功能。支持多硬件环境，包括4D并行配置和高效精调策略，适应多种硬件平台，有效降低开发门槛。兼容LLaMA、Bloom等多种主流模型，为大模型开发提供高效解决方案。

awesome-language-agents

该项目汇总了基于CoALA框架的语言代理，实现了动作空间、决策周期等功能。提供了相关核心论文、推特线程及300多篇文献，涵盖从推理到环境互动等多领域前沿研究，旨在优化语言代理的交互、检索和学习能力，有效管理短期和长期记忆。

max

MAX平台是一套集成的AI库、工具和技术，统一了分散的AI部署工作流。通过提供单一开发工具链，MAX显著缩短了创新产品的上市时间，同时具备完全编程能力、卓越的性能和顺畅的硬件兼容性。文档、代码示例和Jupyter笔记本等资源可帮助用户快速起步，并提供社区支持和交流。

torchao是一个用于PyTorch工作流的高性能库，能够创建并集成自定义数据类型和优化技术，实现推理速度提升至2倍，显存减少65%。无需大幅修改代码，保持准确度。支持量化、稀疏化及浮点数优化，适用于HuggingFace等模型。用户可以轻松优化模型，提高计算效率。支持int8、int4和float8等多种数据类型，兼容torch.compile()和FSDP。

chatglm_finetuning

本项目提供详细的ChatGLM系列模型微调教程，支持全参数训练、Lora、AdaLora、IA3及P-Tuning-V2等方法。涵盖最新更新，如支持accelerator和colossalai训练，解除chatglm-6b-int4全参训练限制等。项目包含数据处理、推理脚本及多种训练参数设置，适合深度学习研究与应用。

onnx

ONNX是一个开放生态系统，提供AI模型的开源格式，支持深度学习和传统机器学习。通过定义可扩展的计算图模型和内置操作符及标准数据类型，ONNX增强了不同框架间的互操作性，加速了从研究到生产的转化。ONNX广泛支持各种工具和硬件，助力AI社区快速创新。了解ONNX的文档、教程和预训练模型，加入社区，共同推动ONNX的发展。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com