#模型训练

fontogen - 自定义字体生成工具
FontoGen字体生成模型训练开源字体字体推理Github开源项目
FontoGen是一款自定义字体生成工具,通过简便的安装步骤和详细的训练指南,用户可以轻松生成专属字体。项目支持开源字体训练,提供完整的示例流程,并且允许通过大规模的OFL字体数据集重新训练模型以提升效果。项目作者也乐于协助环境设置。
YuzuMarker.FontDetection - 中日韩字体识别模型和场景文本图像数据集生成
YuzuMarker.FontDetectionCJK字体识别开源数据集模型训练数据生成Github开源项目
YuzuMarker.FontDetection 项目提供了一个专门针对中日韩字体识别的模型,并详尽介绍了生成场景文本图像数据集的方法。用户可以利用CJK字体包和背景图片自动生成所需的数据集,项目现已开源数据集供下载,支持多种字体渲染技术和模型训练选项,有助于提升字体识别的准确性。更多信息请访问项目官网和文档。
transformers-code - 对Transformers从入门到高效微调的全方位实战指南
TransformersNLP模型训练微调分布式训练Github开源项目
课程提供丰富的实战代码和案例,从基础入门到高效微调以及低精度和分布式训练。涵盖命名实体识别、机器阅读理解和生成式对话机器人等NLP任务。帮助深入理解Transformers的核心组件和参数微调技术,包括模型优化和分布式训练。适合对Transformers应用和实践感兴趣的学习者。课程在B站和YouTube持续更新,紧跟技术前沿。
StableSR - 通过扩散模型实现实际应用中的图像超分辨率
StableSR图像超分辨率扩散模型Hugging Face模型训练Github开源项目
StableSR项目采用扩散模型,提高了真实世界场景中的图像超分辨率效果。最新更新包括对SD-Turbo的支持以及与ComfyUI和Hugging Face平台的集成。用户可以通过各种平台体验和测试该项目的功能。项目提供了详细的文档、代码示例和训练脚本,已被IJCV期刊接受,并在多个公开数据集中展示了其性能和效果。
llama3-Chinese-chat - llama3中文版上线,提供多样化微调和部署选项
llama3中文化模型训练微调API部署Github开源项目
llama3中文版本发布,提供丰富中文对话数据集和多种微调选项(如DPO、SFT、RLHF)。项目包含详细的API部署教程、本地LMStudio教程和vLLM云端部署方式,适用于不同用户需求。欢迎加入,完善中文AI模型。
LLamaTuner - 大语言模型微调工具,支持几乎所有GPU
LLamaTuner大语言模型模型训练数据预处理Supervised fine-tuning datasetGithub开源项目
LLamaTuner是一款高效、灵活且功能全面的大语言模型微调工具。支持在几乎所有GPU上进行大语言模型的预训练和微调,包括单个8GB GPU上微调7B LLM和超过70B模型的多节点微调。自动调度高性能算子如FlashAttention和Triton内核,兼容DeepSpeed以提升训练吞吐量。支持多种LLM和VLM,以及QLoRA和LoRA等多种训练算法,提供连续预训练、指令微调和代理微调等功能,还能与大型模型进行对话。
ffcv - 插入式数据加载系统,可显著提高模型训练中的数据吞吐量
ffcv模型训练数据加载计算机视觉加速Github开源项目
FFCV通过加速数据加载,显著提升模型训练的数据吞吐量,同时保持训练算法不变,极大地减少训练时间和成本。例如,使用FFCV在一块GPU上训练ImageNet模型仅需35分钟,而CIFAR-10模型仅需36秒。FFCV还提供预封装的标准视觉基准代码、自动优化的数据处理功能,以及适用于各种资源约束环境的灵活选项。更多详细信息和安装指南,请访问官方网站。
labml - 通过手机监控深度学习模型训练和硬件使用情况
LabML深度学习模型训练硬件监控开源Github开源项目
提供通过移动设备和电脑实时监控深度学习模型训练和硬件使用的开源解决方案。集成简单,支持自定义可视化,记录详细实验信息,包括Git提交、配置和超参数。支持多人分布式训练和易于安装的实验服务器,方便用户全程跟踪训练进展。
vocal-remover - 使用深度学习的开源伴奏提取工具
vocal-remover深度学习PyTorch音源分离模型训练Github开源项目
这款基于深度学习的开源工具可以从歌曲中提取伴奏。用户能够下载最新版本并安装相关的要求包,通过简单命令将音轨分离为伴奏和人声轨道。支持在CPU和GPU上运行,并提供诸如Test-Time-Augmentation和后处理等高级选项以提升分离质量。项目同样允许用户使用自己的数据集训练模型,非常适用于需要高质量音频源分离的应用。
lightning-flash - 跨数据领域和任务的AI模型训练与处理解决方案
lightning-flashPyTorchAI深度学习模型训练Github开源项目
Lightning Flash提供多任务和多数据领域的AI解决方案,用户只需三步即可完成数据加载、模型配置和微调。项目支持多种预训练模型和优化策略,简化深度学习工作流程,适用于各种数据域和任务类型。其功能包括模型预测、训练策略、优化器和调度器选择,以及自定义数据变换。Flash旨在让用户无需自行开发复杂的研究框架,即可在生产环境中应用AI模型。
ml-cvnets - 灵活的计算机视觉模型训练库
CVNets计算机视觉模型训练对象检测图像分类Github开源项目
CVNets是一个计算机视觉库,支持研究人员和工程师训练和评估多种计算机视觉模型,包括对象分类、对象检测和语义分割等任务。最新版本引入了直接处理文件字节的Transformer和高效在线增强,支持如Mask R-CNN、EfficientNet、Swin Transformer和ViT等模型,并增强了蒸馏功能。
recommenders - 利用TensorFlow构建推荐系统模型的库
TensorFlow RecommendersKeras推荐系统模型训练数据准备Github开源项目
TensorFlow Recommenders 是一款利用TensorFlow构建推荐系统模型的库。它涵盖了数据准备、模型构建、训练、评估和部署的完整工作流程,基于Keras,旨在为用户提供易学且灵活的体验,能够支持构建复杂模型。只需确保安装TensorFlow 2.x,并使用pip安装即可开始使用。详细的文档和教程能够帮助用户快速入门。
TensorFlowASR - TensorFlow 2中的智能自动语音识别解决方案
TensorFlowASR自动语音识别深度学习TFLite模型训练Github开源项目
TensorFlowASR提供了多种自动语音识别模型,如DeepSpeech2、Jasper和RNN Transducer,支持转换为TFLite格式以减少内存和计算需求。此项目适用于Python 3.8及以上版本和TensorFlow 2.12.0及以上版本,支持多平台,包括Apple Silicon,并提供详细的安装和开发指南。
OpenLRM - 开源3D重建模型
OpenLRM开源视觉重建模型训练Hugging FaceGithub开源项目
OpenLRM是一个开源项目,专注于将单张图像转换为三维模型,提供预训练模型、训练代码和工具。用户可访问Hugging Face平台上的模型和演示。最新版本v1.1.1支持Objaverse和MVImgNet数据集,并进行了代码重构以提升可用性和扩展性。项目还包含安装指南、推理脚本和训练配置文件,便于用户快速上手。
UniControl - 优化多任务条件生成的统一扩散模型
UniControl控制生成视觉生成模型训练任务推理Github开源项目
UniControl项目展示了一种新的多任务条件生成模型,支持多种语言提示,通过增强的预训练文本到图像扩散模型和任务感知的HyperNet,实现高精度图像生成和多任务适应。实验结果表明,UniControl在多个单任务控制方法上表现更佳,是可控视觉生成领域的重要进展。
sd-scripts - Stable Diffusion模型训练与生成的综合脚本工具库
Stable Diffusion机器学习图像生成模型训练LoRAGithub开源项目
sd-scripts是一个专为Stable Diffusion模型开发的脚本库,集成了多种训练方法如DreamBooth、微调、LoRA和Textual Inversion。此外,它还提供了图像生成和模型转换功能。该项目包含训练脚本、数据准备工具和配置选项,有助于优化AI艺术创作流程。
mistral-finetune - 基于LoRA技术的Mistral模型高效微调框架
Mistral-finetuneLoRA微调模型训练GPUGithub开源项目
mistral-finetune是一个基于LoRA技术的轻量级框架,通过仅训练1-2%的额外权重来实现Mistral模型的高效微调。该框架支持多GPU单节点训练,适合A100或H100 GPU使用。它提供简化的数据格式要求和验证工具,支持指令跟随和函数调用等多种训练模式,适用于各类微调需求。
OpenFedLLM - 联邦学习框架助力大型语言模型隐私数据训练
联邦学习大语言模型OpenFedLLM开源模型训练Github开源项目
OpenFedLLM是一个开源研究代码库,专注于利用联邦学习技术训练大型语言模型。该项目整合了多种联邦学习算法和LLM训练方法,并提供全面的评估指标。通过支持指令微调和价值对齐,OpenFedLLM为研究人员提供了在分散私有数据上进行LLM训练的有力工具,助力隐私保护和模型性能优化研究。
big_vision - 基于Jax/Flax的大规模视觉模型训练框架
big vision深度学习计算机视觉模型训练JaxGithub开源项目
Big Vision是一个用于训练大规模视觉模型的开源代码库。它基于Jax/Flax构建,支持在Cloud TPU VM和GPU上运行。该项目采用tf.data和TensorFlow Datasets实现高效的数据处理,可无缝扩展至2048个TPU核心的分布式环境。Big Vision涵盖了视觉Transformer、多模态学习、知识蒸馏等多个研究方向,为大规模视觉实验提供了可靠的基础。
openWakeWord - 高效易用的开源语音唤醒词识别库
openWakeWord唤醒词语音识别开源库模型训练Github开源项目
openWakeWord是一个开源语音唤醒词库,用于开发语音交互应用和界面。它提供预训练模型,可识别常见词语,适应真实环境。该项目旨在平衡速度、准确性和易用性,采用简单架构,支持高效训练新模型,无需大量手动数据采集。
Trainer - 基于PyTorch的通用模型训练框架
TrainerPyTorch模型训练多GPU训练实验日志Github开源项目
Trainer是一个基于PyTorch的开源模型训练框架,具有简洁的代码结构和灵活的优化控制。该框架支持自动优化、高级优化循环、批量大小查找、分布式训练和Accelerate集成。此外,Trainer提供回调功能、性能分析和多种实验日志记录选项,包括Tensorboard和ClearML等。这个框架适用于各类深度学习任务,能够简化训练流程并提升效率。
GPT-SoVITS-Server - 轻量级语音克隆模型部署工具
GPT-SoVITS语音克隆模型训练推理合成服务器部署Github开源项目
GPT-SoVITS-Server是一个简化语音克隆模型部署的轻量级项目。无需复杂环境搭建,用户可在多种设备上轻松运行训练好的GPT-SoVITS模型,包括手机和服务器。项目适用于CPU推理,提供简化的代码结构和配置选项,便于新手使用。未来计划包括优化代码结构、增加语言支持和开发图形界面。
glados-tts - 开源Portal风格语音合成引擎
GLaDOS语音合成神经网络模型训练安装指南Github开源项目
GLaDOS TTS是一个开源的文本转语音引擎,利用神经网络技术生成Portal游戏风格的GLaDOS语音。该项目支持独立运行和远程API调用,提供了详细的安装说明和训练方法。GLaDOS TTS包含多说话人模型训练和模型优化功能,适用于各种设备和应用场景。开发者可以通过此项目轻松将Portal风格的语音集成到自己的应用中。
friendly-stable-audio-tools - 改进后的Stable Audio Tools开源框架支持音频生成模型训练和推理
Stable AudioAI音频生成模型训练深度学习音乐生成Github开源项目
该项目是对Stability AI的stable-audio-tools的重构和增强,提供了音频和音乐生成模型的开源代码。重构后的代码提高了可读性和易用性,并新增了评估和使用自训练模型的脚本。项目详细说明了如何训练Stable Audio 2.0等模型,并提供了Stable Audio Open 1.0的使用文档和便捷脚本。此外,项目支持多GPU/节点生成,并集成了Gradio界面用于测试模型。
DeepSeek-Coder - 支持多种编程语言的高性能开源代码模型
DeepSeek Coder代码生成AI编程助手性能评估模型训练Github开源项目
DeepSeek-Coder是一系列基于2T代码和自然语言数据训练的代码语言模型。提供1B至33B不同规模版本,支持项目级代码补全和插入。该模型在多种编程语言和基准测试中表现出色,支持87种编程语言,并在HumanEval、MBPP等评测中优于现有开源模型。
SAM-Med2D - 医学图像分割新突破 SAM-Med2D模型
SAM-Med2D医学图像分割数据集模型训练模型评估Github开源项目
SAM-Med2D是基于Segment Anything Model的医学图像分割模型,在包含4.6M图像和19.7M掩码的大规模数据集上进行微调。该项目涵盖10种医学数据模态、4种解剖结构和病变,以及31个主要人体器官。SAM-Med2D在多个测试集上表现优秀,尤其在点提示和边界框提示方面效果显著,为医学图像分割领域提供了新的解决方案。
Qwen2 - 阿里巴巴推出多语言大规模语言模型 支持128K上下文
Qwen2大语言模型自然语言处理人工智能模型训练Github开源项目
Qwen2是阿里巴巴发布的大规模语言模型系列,规模从0.5B到72B不等。支持27种语言,在编码和数学等领域表现优异。Qwen2-7B-Instruct和Qwen2-72B-Instruct模型的上下文长度达128K,显著增强长文本处理能力。项目提供多种部署选项,包括本地运行和规模化推理,并支持模型量化和微调。
torchtune - PyTorch原生库助力简化大语言模型开发
torchtunePyTorchLLM微调模型训练Github开源项目
torchtune是一个PyTorch原生库,专为简化大语言模型(LLM)的创建、微调和实验而设计。该库提供了主流LLM的PyTorch实现、易用的微调技术配方、YAML配置文件和多种数据集格式支持。torchtune注重与生态系统工具集成,如Hugging Face、EleutherAI评估工具和PyTorch FSDP等。支持多种模型和微调方法,并优化内存效率,适配不同硬件环境。
facechain - AI驱动的快速个性化肖像生成框架
FaceChainAI绘图人像生成身份保持模型训练Github开源项目
FaceChain FACT是一款创新的AI肖像生成框架,仅需一张照片即可在10秒内生成保持身份特征的个性化肖像。该框架支持文本到图像和修复式生成,并与ControlNet和LoRA兼容。通过解耦训练技术,FaceChain FACT提升了图像质量、文本遵循能力和风格保持能力,实现了高度可控和真实的肖像生成。
keras-cv - 跨框架模块化计算机视觉工具集
KerasCV计算机视觉深度学习Keras模型训练Github开源项目
keras-cv 是基于 Keras 3 的模块化计算机视觉库,兼容 TensorFlow、JAX 和 PyTorch。它为数据增强、分类、目标检测等视觉任务提供高级组件,支持跨框架迁移,并包含预训练模型。该库旨在帮助开发者高效构建生产级计算机视觉应用。
Transformer-from-scratch - 简洁实现Transformer模型的入门教程
TransformerLLMPyTorch模型训练自然语言处理Github开源项目
该项目展示了如何用约240行代码实现Transformer模型,包含基于PyTorch的训练演示和详细的Jupyter Notebook。使用450Kb样本数据集,在单CPU上20分钟内完成训练,帮助初学者理解大型语言模型的原理和实现过程。
label-studio-ml-backend - Label Studio ML Backend 增强数据标注自动化的开源工具
Label Studio机器学习后端模型训练预测DockerGithub开源项目
Label Studio ML Backend是一个开源SDK,用于将机器学习代码转换为Web服务器。它可与Label Studio实例集成,实现数据标注自动化。支持文本分类、命名实体识别和对象检测等多种模型。具备预标注、交互式标注和模型训练功能。开发者能够自定义ML后端,实现特定的推理逻辑。这个SDK简化了机器学习模型与Label Studio的整合过程,有效提升了数据标注效率。
YOLOv6 - 高性能目标检测框架支持多场景应用
YOLOv6目标检测深度学习计算机视觉模型训练Github开源项目
YOLOv6是一款高效的目标检测框架,提供从轻量级到大型的多种模型选择。它在速度和精度上取得平衡,支持量化和移动端部署,适用于各种实时检测场景。最新版本还引入了分割功能,扩展了应用范围。YOLOv6不仅适用于工业领域,还可广泛应用于安防、交通等多个领域。
colpali - 基于视觉语言模型的高效文档检索系统
ColPali文档检索视觉语言模型模型训练效率Github开源项目
ColPali是一个基于视觉语言模型的文档检索系统。该项目整合了ColBERT检索器模型、大型语言模型和图像语言模型,实现高效的文档搜索功能。ColPali支持自定义训练,安装和使用简便,适用于多种文档检索场景。系统能同时处理文本和图像信息,提供准确全面的检索结果。
litdata - 优化数据处理和流式传输工具 提升AI模型训练效率
LitData数据处理模型训练数据优化云存储Github开源项目
LitData是一个开源的数据处理和优化工具,专注于提升AI模型训练效率。它提供并行数据处理、向量嵌入创建、分布式推理和大规模网站抓取功能。LitData优化数据集以加速模型训练,支持云端大规模数据流式传输,并实现远程数据的无本地加载使用。这些特性使LitData成为提高数据处理效率和AI模型训练速度的有力工具。
网易云课堂 - 云端AI绘画和设计创作平台
AI图像图像生成AI工具AI设计工坊云端Stable Diffusion网易云课堂模型训练作品接单社区热门
网易云课堂AI设计工坊集成了全面的AI绘画工具和云端Stable Diffusion技术,无安装需求,支持即时使用。平台整合了学习、创作、分享及接单等功能,提供专业多样的Checkpoint和LoRA风格模型,支持在线定制模型训练,以及丰富的社区与课程资源,助力设计师技能提升与作品商业化。