#自动编码器

DALLE-pytorch入门指南 - OpenAI的文本到图像生成模型在PyTorch中的复现

2 个月前

DALL-E Pytorch 图像生成文本到图像转换自动编码器 Github 开源项目

2 个月前

Accel Brain Code: 从概念验证到原型的机器学习项目

3 个月前

深度学习机器学习强化学习自动编码器生成对抗网络 Github 开源项目

3 个月前

IRIS中心：推动基于证据的教育实践，改善所有儿童的学习成果

3 个月前

IRIS 世界模型 Transformer 自动编码器强化学习 Github 开源项目

3 个月前

TAESD：Stable Diffusion的微型自编码器

3 个月前

TAESD Stable Diffusion AI绘图自动编码器潜在空间 Github 开源项目

3 个月前

Pythae:一个统一的Python生成式自编码器库

3 个月前

pythae 变分自编码器分布式训练深度学习自动编码器 Github 开源项目

3 个月前

DALLE-pytorch: OpenAI的文本到图像转换器的PyTorch实现

3 个月前

DALL-E Pytorch 图像生成文本到图像转换自动编码器 Github 开源项目

3 个月前

相关项目

DALLE-pytorch

基于OpenAI的DALL-E以及CLIP技术，DALLE-pytorch是一种开源的AI解决方案，可将文本高效转化为图像。该工具在Pytorch框架下开发，支持包括OpenAI预训练的VAE在内的多种训练模式。DALLE-pytorch不仅采用了深度可逆网络和稀疏注意力技术，而且提供了高灵活性和可扩展性，适合多种数据集。

benchmark_VAE

pythae库实现多种常见的变分自编码器模型，提供相同自编码神经网络架构下的基准实验和比较。用户可以用自己的数据和编码器、解码器网络训练这些模型，并集成wandb、mlflow和comet-ml等实验监控工具。最新版本支持PyTorch DDP分布式训练，提高训练速度和处理大数据集的能力。支持从HuggingFace Hub进行模型共享和加载，代码简洁高效。涵盖多种已实现模型和采样器，满足不同研究需求。

taesd

TAESD是一款小巧的自动编码器，采用与Stable Diffusion VAE相同的潜在API。它能高效地将Stable Diffusion潜在空间解码为全尺寸图像。TAESD兼容SD1/2、SDXL、SD3和FLUX.1等多种模型，已整合到主流AI绘画工具中。该工具适用于实时预览图像生成过程和替代官方VAE的场景。尽管在细节还原方面稍有欠缺，TAESD通过轻微的质量损失换取了显著的速度和便利性提升。

iris

IRIS是一种基于Transformer的世界模型，通过离散自编码器和自回归Transformer将动态学习转化为序列建模问题。该模型在世界模型中训练数百万个想象轨迹，实现了高效的数据利用。IRIS仅需两小时实时经验就能在多个Atari游戏中表现出色，展现了优秀的样本效率和泛化能力。

accel-brain-code

accel-brain-code是一个开源项目，集成了多个深度学习和机器学习算法库。它包括自动编码器、生成对抗网络、深度强化学习等模块，旨在通过概念验证和研发创建原型。该项目探索了AI民主化后的机器学习研发可能性，为快速开发复杂AI系统提供了基础。其功能涵盖自动摘要、强化学习、生成对抗网络等多个领域。

sd-vae-ft-mse

sd-vae-ft-mse是一款经过微调的稳定扩散自编码器，在LAION-Aesthetics和LAION-Humans数据集上训练。该模型旨在提高图像重建质量，尤其是人脸细节。相比原始模型，它在PSNR和SSIM等指标上有明显提升，能够生成更平滑的图像。该模型可作为VAE组件轻松集成到现有的diffusers工作流中，用于稳定扩散图像生成。

taef1

TAEF1是与FLUX.1 VAE共享“latent API”的微型自动编码器，旨在提升实时生成过程的预览体验。该模型轻量化设计，可在FLUX.1-schnell管道中使用，并与PyTorch和diffusers库兼容。TAEF1支持`.safetensors`格式的权重文件，并通过预训练的AutoencoderTiny整合。加载时支持bfloat16精度及CPU顺序卸载，适合有经验的用户。通过简便的Python代码，用户可以生成关于美味纽约风格浆果芝士蛋糕的图像。

convnextv2-base-22k-384

ConvNeXt V2模型通过FCMAE框架和新引入的GRN层提高卷积网络在图像分类中的效果，基于ImageNet-22K数据集训练，支持高分辨率和出色性能表现，适用于多种识别任务，可用于直接应用或微调以满足特定需求。

convnextv2_tiny.fcmae_ft_in22k_in1k_384

ConvNeXt-V2 模型具备高效的图像分类能力，通过全卷积掩码自编码器架构进行预训练，并在 ImageNet-22k 和 ImageNet-1k 数据集上进行精调。该模型具备 28.6M 参数量、13.1 GMACs 计算量，支持 384x384 的图像尺寸。通过 timm 库使用，支持图像分类、特征图提取和图像嵌入等多种视觉任务。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com