#PyTorch实现

PortaSpeech入门学习资料汇总 - 便携高质量生成式文本转语音模型

2 个月前

PortaSpeech 文本转语音 PyTorch实现音频样本模型大小 Github 开源项目

2 个月前

LivePortrait入门指南 - 高效肖像动画生成框架

2 个月前

LivePortrait 人像动画深度学习 PyTorch实现实时渲染 Github 开源项目热门

2 个月前

GANILLA: 一种创新的图像到插画风格转换技术

3 个月前

GANILLA 图像转插图生成对抗网络 PyTorch实现风格迁移 Github 开源项目

3 个月前

TheChosenOne:一个实现文本到图像扩散模型中一致性角色生成的开源项目

3 个月前

The Chosen One 文本到图像扩散模型 PyTorch实现一致性角色生成 Diffuser框架 Github 开源项目

3 个月前

Score Entropy Discrete Diffusion: 离散扩散模型的突破性进展

3 个月前

离散扩散模型 PyTorch实现预训练模型采样策略训练代码 Github 开源项目

3 个月前

BitNet: 用1比特变换器缩放大型语言模型

3 个月前

BitNet 1比特变换器大语言模型 PyTorch实现模型压缩 Github 开源项目

3 个月前

Mamba-Minimal: 简洁实现的高效序列建模架构

3 个月前

Mamba PyTorch实现语言模型状态空间模型深度学习 Github 开源项目

3 个月前

BitNet: 革命性的1比特Transformer模型

3 个月前

BitNet 1比特变换器大语言模型 PyTorch实现模型压缩 Github 开源项目

3 个月前

PersFormer: 革新3D车道线检测的新基准

3 个月前

PersFormer 3D车道线检测透视变换 OpenLane基准 PyTorch实现 Github 开源项目

3 个月前

PortaSpeech:便携高质量的生成式文本转语音模型

3 个月前

PortaSpeech 文本转语音 PyTorch实现音频样本模型大小 Github 开源项目

3 个月前

相关项目

LivePortrait

LivePortrait是一种基于PyTorch实现的先进面部动画技术，支持高效的人像动画合成与重定向控制。项目提供了全面的预训练模型和易于使用的界面，支持Windows、macOS和Linux系统。用户可以快速开始，利用预训练权重生成高质量的动画肖像。支持静态图像与视频的动画生成，可广泛应用于虚拟现实、游戏开发和在线教育等领域。

PortaSpeech

基于PyTorch的PortaSpeech项目，提供一种高质量且便携的文本到语音转换实现方案。这个项目支持单声道和多声道TTS，包含快速启动指南、多种样本、预训练模型，适合研究和实际开发。它还为数据预处理和模型训练提供详细指南，帮助用户轻松使用并优化其TTS系统。

PersFormer_3DLane

PersFormer是一种创新的3D车道线检测模型，采用基于Transformer的模块生成BEV特征并参考相机参数。模型能同时进行2D和3D车道检测，提升特征一致性与多任务学习效果。PersFormer在OpenLane和Apollo 3D Lane Synthetic数据集上的表现优异，超越了多种现有方法，并提供简便的安装与评估说明以及详细的训练和测试指南，成为3D车道检测领域的重要进展。

mamba-minimal

mamba-minimal项目是Mamba模型的PyTorch单文件实现。该项目在保持代码简洁可读的同时，实现了与官方版本在前向和反向传播上相同的数值输出。虽未优化速度，但为理解Mamba架构提供了有价值的资源。项目包含文本生成示例，方便研究者和开发者使用和学习Mamba模型。

mae_st

mae_st项目是一个基于PyTorch实现的掩码自编码器时空学习框架。该项目提供预训练模型、微调和测试代码，支持在Kinetics数据集上进行训练和评估。项目特色包括交互式可视化演示，展示不同掩码率下的MAE输出效果。研究人员可借助此工具开展视频理解和重建相关研究，深入探索时空学习领域。

Score-Entropy-Discrete-Diffusion

Score-Entropy-Discrete-Diffusion 是一个基于 PyTorch 实现的离散扩散模型项目。它通过估计数据分布比率来生成文本，包含噪声调度、前向扩散过程、采样策略和模型架构等模块。该项目支持使用预训练模型，提供条件和非条件文本生成功能，并为离散数据生成研究提供了新思路。项目结构模块化，便于进一步研究和应用开发。

BitNet

BitNet是一种创新的1比特变压器实现，通过BitLinear层替换标准线性投影，实现大型语言模型的高效压缩。该项目提供PyTorch实现，包含BitLinear、BitNetTransformer和BitAttention等核心组件，支持推理和Hugging Face模型集成。BitNet还探索了视觉任务应用，展现了多模态领域的潜力。项目包括训练脚本、性能基准测试和CUDA优化，为研究人员和开发者提供了全面的工具集。

TheChosenOne

TheChosenOne项目是《The Chosen One: Consistent Characters in Text-to-Image Diffusion Models》论文的非官方PyTorch实现。该项目使用Diffuser框架，致力于在文本到图像扩散模型中实现一致性角色生成。项目提供训练和推理指南，计划支持ControlNet和局部图像编辑功能。基于diffuser 0.24.0.dev0版本开发，并包含详细的安装和配置说明。

ganilla

GANILLA是一个开源项目，专注于图像到插画的风格转换。该模型基于生成对抗网络，通过独特的网络架构实现了高质量的插画风格生成。项目提供PyTorch实现、预训练模型和使用指南，支持多种数据集和应用场景。GANILLA在保留原始图像内容的同时，能够生成多样化的插画效果，为图像风格转换研究提供了新的思路和工具。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com