#预训练

build_MiniLLM_from_scratch 入门学习资料汇总 - 从零构建迷你大语言模型

2024年09月10日

build_MiniLLM_from_scratch bert4torch Torch4keras 预训练指令微调 Github 开源项目

2024年09月10日

LLM-workshop-2024学习资料汇总 - 从零开始理解和实现大型语言模型

2024年09月10日

LLMs PyTorch GPT 预训练微调 Github 开源项目

2024年09月10日

UniLM学习资源汇总 - 统一的预训练语言模型框架

2024年09月10日

Foundation Models TorchScale Multi-modal 预训练 Large-scale Github 开源项目

2024年09月10日

Firefly大模型训练工具-学习资料汇总-支持主流大模型的一站式训练平台

2024年09月10日

Firefly 大模型训练指令微调预训练 QLoRA Github 开源项目

2024年09月10日

PhoGPT入门指南 - 越南语生成式预训练模型

2024年09月10日

PhoGPT Vietnamese 生成模型预训练聊天机器人 Github 开源项目

2024年09月10日

Chronos-forecasting学习资料汇总 - 基于语言模型的时间序列预测框架

2024年09月10日

Chronos 时间序列语言模型 AutoGluon 预训练 Github 开源项目

2024年09月10日

LLMs-from-scratch入门学习资料汇总 - 从零开始实现ChatGPT类LLM的完整教程

2024年09月10日

Build a Large Language Model LLM GPT 预训练微调 Github 开源项目

2024年09月10日

LitGPT学习资料汇总 - 高性能大语言模型预训练、微调和部署工具

2024年09月10日

LitGPT AI模型微调大规模部署预训练 Github 开源项目热门

2024年09月10日

VisualRWKV: 基于RWKV的创新视觉语言模型

2024年09月05日

VisualRWKV 视觉语言模型 RWKV 预训练微调 Github 开源项目

2024年09月05日

Awesome-Code-LLM: 代码大语言模型研究的精选资源列表

2024年09月05日

代码生成大语言模型人工智能评估基准预训练 Github 开源项目

2024年09月05日

相关项目

litgpt

LitGPT为开发者提供超过20种高性能的大型语言模型（LLMs），具备从头开始的实现、无抽象层和企业级的性能优化。适合于训练、微调和部署大规模应用，支持新手入门，简化企业级部署流程。提供全面的Python API文档和优化教程，使得部署AI模型更快速、更经济、更有效率。

chronos-forecasting

Chronos是一款基于语言模型架构的预训练时间序列预测工具。它通过量化处理将时间序列转换为标记序列，并使用大规模的公开和合成数据进行训练。Chronos模型在零样本场景中表现优异，提供从预测到嵌入提取的完整解决方案。通过AutoGluon，用户可轻松进行模型集成和云端部署，提升预测性能和应用的灵活性。

PhoGPT

PhoGPT是一个高性能的越南语生成预训练模型系列，包括基础模型PhoGPT-4B和聊天变体PhoGPT-4B-Chat。PhoGPT-4B在102B词汇上预训练，支持8192上下文长度和20K词汇类型。PhoGPT-4B-Chat经过微调，提升了对话和指令响应能力。PhoGPT在开源模型中表现优异，适合多种生成任务。

Firefly

Firefly作为一个开源大模型训练工具，提供预训练、指令微调和DPO的全面解决方案。支持LoRA、QLoRA等高效训练技术，并涵盖多种主流大模型如Qwen2、Yi-1.5，特别适合显存和资源有限的环境。项目不仅开源多种数据集，还在Open LLM排行榜中展示了QLoRA训练的高效性，并与Unsloth合作，进一步优化了训练效率和显存使用。

LLM-workshop-2024

本教程为编码人员提供了对大型语言模型（LLMs）构建模块和工作原理的深入理解。从LLMs的基础概念和应用案例开始，涵盖了小型GPT模型的数据输入管道、核心架构组件和预训练代码的编写。教程还包括如何加载预训练权重和使用开源库进行微调的实战技能。

unilm

Unilm项目跨越100多种语言及包括语言、视觉、语音及其交互的多种模态，专注于基础模型和普适AI的研究。该项目已开发多种新型架构如DeepNet、Magneto，并通过稳定高效的训练方法增强模型的通用性和能力。此外，项目已发布关键技术如E5、BEiT-3，涵盖自然语言处理、机器翻译、文档AI及多模态AI等领域，为AI技术的前沿发展和实际应用做出了显著进展。

TencentPretrain

腾讯开发的多模态预训练框架TencentPretrain，专为文本、视觉和音频数据设计，具有高效的模块化设计，便于使用现有预训练模型并提供扩展接口。支持CPU、单GPU及分布式训练模式，拥有丰富的预训练模型，适用于如分类、机器阅读理解等多种下游任务，在多个竞赛中表现优异。详见完整文档及快速入门指南。

pretraining-with-human-feedback

该项目为根据人类偏好预训练语言模型提供了一套基于Hugging Face Transformers和wandb的工具。项目实现了五种预训练目标，通过对训练数据注释并使用这些目标函数提升模型性能，包括毒性检测和隐私信息识别等任务。项目还提供详细的配置文件和评估方式指导。

LLMs-from-scratch

本书详细介绍了如何从零开始编码、构建和训练GPT类大语言模型。提供逐步指导、清晰图示和示例，适合教育用途的小型模型开发，并包含大模型预训练权重加载和微调的代码示例。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com