#自动编码器

DALLE-pytorch - 文本到图像转换的先进实现

DALL-EPytorch图像生成文本到图像转换自动编码器Github开源项目

基于OpenAI的DALL-E以及CLIP技术，DALLE-pytorch是一种开源的AI解决方案，可将文本高效转化为图像。该工具在Pytorch框架下开发，支持包括OpenAI预训练的VAE在内的多种训练模式。DALLE-pytorch不仅采用了深度可逆网络和稀疏注意力技术，而且提供了高灵活性和可扩展性，适合多种数据集。

benchmark_VAE - 统一实现常见变分自编码器并提供基准比较

pythae变分自编码器分布式训练深度学习自动编码器Github开源项目

pythae库实现多种常见的变分自编码器模型，提供相同自编码神经网络架构下的基准实验和比较。用户可以用自己的数据和编码器、解码器网络训练这些模型，并集成wandb、mlflow和comet-ml等实验监控工具。最新版本支持PyTorch DDP分布式训练，提高训练速度和处理大数据集的能力。支持从HuggingFace Hub进行模型共享和加载，代码简洁高效。涵盖多种已实现模型和采样器，满足不同研究需求。

taesd - 轻量级自动编码器：高速解码Stable Diffusion潜在空间

TAESDStable DiffusionAI绘图自动编码器潜在空间Github开源项目

TAESD是一款小巧的自动编码器，采用与Stable Diffusion VAE相同的潜在API。它能高效地将Stable Diffusion潜在空间解码为全尺寸图像。TAESD兼容SD1/2、SDXL、SD3和FLUX.1等多种模型，已整合到主流AI绘画工具中。该工具适用于实时预览图像生成过程和替代官方VAE的场景。尽管在细节还原方面稍有欠缺，TAESD通过轻微的质量损失换取了显著的速度和便利性提升。

iris - 基于Transformer的高效样本世界模型

IRIS世界模型Transformer自动编码器强化学习Github开源项目

IRIS是一种基于Transformer的世界模型，通过离散自编码器和自回归Transformer将动态学习转化为序列建模问题。该模型在世界模型中训练数百万个想象轨迹，实现了高效的数据利用。IRIS仅需两小时实时经验就能在多个Atari游戏中表现出色，展现了优秀的样本效率和泛化能力。

accel-brain-code - 深度学习和机器学习算法库集合

深度学习机器学习强化学习自动编码器生成对抗网络Github开源项目

accel-brain-code是一个开源项目，集成了多个深度学习和机器学习算法库。它包括自动编码器、生成对抗网络、深度强化学习等模块，旨在通过概念验证和研发创建原型。该项目探索了AI民主化后的机器学习研发可能性，为快速开发复杂AI系统提供了基础。其功能涵盖自动摘要、强化学习、生成对抗网络等多个领域。

sd-vae-ft-mse - 改进稳定扩散自编码器提升图像重建效果

模型模型微调自动编码器开源项目Huggingface图像生成Stable DiffusionGithub深度学习

sd-vae-ft-mse是一款经过微调的稳定扩散自编码器，在LAION-Aesthetics和LAION-Humans数据集上训练。该模型旨在提高图像重建质量，尤其是人脸细节。相比原始模型，它在PSNR和SSIM等指标上有明显提升，能够生成更平滑的图像。该模型可作为VAE组件轻松集成到现有的diffusers工作流中，用于稳定扩散图像生成。

taef1 - 高效微型自动编码器增强FLUX.1实时预览

TAEF1开源项目实时预览FLUX.1模型Huggingface深度学习自动编码器Github

TAEF1是与FLUX.1 VAE共享“latent API”的微型自动编码器，旨在提升实时生成过程的预览体验。该模型轻量化设计，可在FLUX.1-schnell管道中使用，并与PyTorch和diffusers库兼容。TAEF1支持`.safetensors`格式的权重文件，并通过预训练的AutoencoderTiny整合。加载时支持bfloat16精度及CPU顺序卸载，适合有经验的用户。通过简便的Python代码，用户可以生成关于美味纽约风格浆果芝士蛋糕的图像。

convnextv2-base-22k-384 - 基于ImageNet-22K数据集的ConvNeXt V2全卷积模型

Github模型ImageNet开源项目图像分类视觉Huggingface自动编码器ConvNeXt V2

ConvNeXt V2模型通过FCMAE框架和新引入的GRN层提高卷积网络在图像分类中的效果，基于ImageNet-22K数据集训练，支持高分辨率和出色性能表现，适用于多种识别任务，可用于直接应用或微调以满足特定需求。

convnextv2_tiny.fcmae_ft_in22k_in1k_384 - ConvNeXt-V2：精准高效的图像分类模型

ImageNetConvNeXt V2图像分类开源项目模型Huggingface卷积网络自动编码器Github

ConvNeXt-V2 模型具备高效的图像分类能力，通过全卷积掩码自编码器架构进行预训练，并在 ImageNet-22k 和 ImageNet-1k 数据集上进行精调。该模型具备 28.6M 参数量、13.1 GMACs 计算量，支持 384x384 的图像尺寸。通过 timm 库使用，支持图像分类、特征图提取和图像嵌入等多种视觉任务。

sd-vae-ft-ema - 稳定扩散变分自编码器的增强版模型

扩散模型开源项目Stable Diffusion模型图像重建机器学习Github自动编码器Huggingface

sd-vae-ft-ema是一个基于LAION-Aesthetics和LAION-Humans数据集训练的稳定扩散变分自编码器。该模型在图像重建质量尤其是人脸细节方面优于原始VAE，具有更好的rFID、PSNR和SSIM指标表现，可作为扩散器工作流中的即插即用组件。

相关文章

Article Cover

DALLE-pytorch: OpenAI的文本到图像转换器的PyTorch实现

Article Cover

Pythae:一个统一的Python生成式自编码器库

Article Cover

TAESD：Stable Diffusion的微型自编码器

Article Cover

IRIS中心：推动基于证据的教育实践，改善所有儿童的学习成果

Article Cover

Accel Brain Code: 从概念验证到原型的机器学习项目

Article Cover

DALLE-pytorch入门指南 - OpenAI的文本到图像生成模型在PyTorch中的复现

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com

@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号