Project Icon

pytorch-inpainting-with-partial-conv

PyTorch实现基于部分卷积的不规则孔洞图像修复

这是Liu等人论文《Image Inpainting for Irregular Holes Using Partial Convolutions》的非官方PyTorch实现。项目提供了基于部分卷积的不规则孔洞图像修复方法,包含数据预处理、模型训练、微调和测试的完整流程。尽管尚未完全复现原论文结果,但已展示了部分测试集的修复效果。此实现为研究人员和开发者提供了探索这一图像修复技术的基础。

annotated_deep_learning_paper_implementations - 简洁易懂的PyTorch神经网络和算法实现
GANGithubPyTorchReinforcement LearningTransformerlabml.ai开源项目
该项目提供详细文档和解释的简明PyTorch神经网络及算法实现,涵盖Transformer、GPT-NeoX、GAN、扩散模型等前沿领域,并每周更新新实现,帮助研究者和开发者高效理解深度学习算法。
pytorch_mgie - 多模态大语言模型驱动的图像编辑指导系统
AI绘图GithubGradioMGIE图像编辑大语言模型开源项目
pytorch_mgie是一个基于多模态大语言模型的图像编辑指导系统,采用Apple开源的ml-mgie技术。该项目通过自然语言指令实现图像编辑,并提供Gradio演示界面展示LLaVA-7B模型在图像编辑任务中的应用。项目包含预训练模型和环境配置指南,为研究和开发提供了实验平台。
Guided-pix2pix - 引导式图像转换,双向特征变换的创新应用
Github双向特征转换图像翻译开源项目深度学习神经网络计算机视觉
Guided-pix2pix项目推出创新的图像转换方法,运用双向特征变换技术提高引导式图像生成的精确度。该方法在姿势迁移、纹理迁移和深度上采样领域展现出优异性能,生成的图像质量更高、更贴合引导信息。项目开放完整代码和预训练模型,为研究人员提供便利的实验和开发环境。
pytorch3d - 基于PyTorch的高效3D计算机视觉研究库
3D计算机视觉GithubPyTorch3D三角网格可微分渲染开源项目深度学习
PyTorch3D是一个基于PyTorch的3D计算机视觉研究库,提供高效、可复用的组件。主要功能包括三角网格操作、可微分渲染和隐式表示框架。该库与深度学习方法无缝集成,支持异构数据批处理、可微分运算和GPU加速。PyTorch3D已应用于多个研究项目,并提供全面的教程和文档。
DALLE2-pytorch - Pytorch实现的OpenAI DALL-E 2
DALL-E 2GithubPytorch开源项目文本到图像神经网络自监督学习
DALL-E 2的Pytorch实现由OpenAI开发,采用先进的神经网络技术将文本描述转化为高质量图像。本版本特别优化扩散先验网络,提供高性能的模型变体。开源项目鼓励开发者通过GitHub和Hugging Face参与贡献,并在Discord社区进行交流和支持。
meshgpt-pytorch - 基于注意力机制的先进3D网格生成框架
3D建模GithubMeshGPT开源项目深度学习神经网络计算机图形学
MeshGPT-Pytorch是一个开源项目,专注于利用注意力机制实现3D网格生成。它基于PyTorch开发,支持可变长度面处理,并提供自动编码器和转换器模型。该项目计划引入文本条件控制功能,实现从文本到3D模型的转换。通过文本条件生成和分层转换器等高级特性,MeshGPT-Pytorch为3D内容创作和研究领域提供了先进的技术支持。
perceiver-pytorch - Perceiver模型的PyTorch实现 迭代注意力处理多模态数据
GithubPerceiver开源项目注意力机制深度学习神经网络计算机视觉
perceiver-pytorch项目实现了Perceiver和PerceiverIO模型。这些模型采用迭代注意力机制,能够处理图像、视频和文本等多种输入数据。项目提供灵活的配置选项,包括输入通道数、频率编码和注意力头数等。通过语言模型示例,展示了PerceiverIO架构的通用性。该实现适合处理复杂多模态输入的深度学习研究和应用。项目提供了简单易用的API,支持快速集成到现有PyTorch项目中。代码实现了原论文中的核心概念,如交叉注意力和自注意力机制。此外,项目还包含了实验性的自下而上注意力版本,为研究人员提供了更多探索空间。
Pytorch-UNet - PyTorch实现的高效U-Net语义分割模型
CarvanaGithubPyTorchU-Net开源项目深度学习语义分割
Pytorch-UNet项目提供定制的U-Net实现,支持多类别分割任务,包括车体遮罩、肖像分割和医学图像分割。兼容PyTorch 1.13及以上版本,提供Docker镜像和预训练模型,便于集成和使用。模型在高分辨率图像上训练,取得了0.988的Dice系数,并支持自动混合精度,可通过Weights & Biases实时监控训练进度。
LFM - 潜空间流匹配实现高效图像生成
Flow MatchingGithubPyTorch图像生成开源项目潜在空间生成模型
LFM项目创新性地将流匹配应用于预训练自编码器的潜空间,显著提升高分辨率图像生成的效率。这种方法不仅在计算资源有限的情况下保持了图像质量,还首次将条件生成任务融入流匹配框架。经过广泛测试,LFM在多个数据集上均取得了优异的定量和定性结果。
cond-image-leakage - 改进图像到视频扩散模型中的条件图像依赖问题
DynamiCrafterGithubVideoCrafter图像到视频生成开源项目扩散模型条件图像泄漏
该研究揭示并解决了图像到视频扩散模型中的条件图像依赖问题。研究团队提出了适用于DynamiCrafter、SVD和VideoCrafter1等多种模型的即插即用推理和训练策略。这些策略减轻了模型对条件图像的过度依赖,增强了生成视频的动态效果。项目开源的代码、模型和演示为图像到视频生成研究提供了重要参考。
项目侧边栏1项目侧边栏2
推荐项目
Project Cover

豆包MarsCode

豆包 MarsCode 是一款革命性的编程助手,通过AI技术提供代码补全、单测生成、代码解释和智能问答等功能,支持100+编程语言,与主流编辑器无缝集成,显著提升开发效率和代码质量。

Project Cover

AI写歌

Suno AI是一个革命性的AI音乐创作平台,能在短短30秒内帮助用户创作出一首完整的歌曲。无论是寻找创作灵感还是需要快速制作音乐,Suno AI都是音乐爱好者和专业人士的理想选择。

Project Cover

有言AI

有言平台提供一站式AIGC视频创作解决方案,通过智能技术简化视频制作流程。无论是企业宣传还是个人分享,有言都能帮助用户快速、轻松地制作出专业级别的视频内容。

Project Cover

Kimi

Kimi AI助手提供多语言对话支持,能够阅读和理解用户上传的文件内容,解析网页信息,并结合搜索结果为用户提供详尽的答案。无论是日常咨询还是专业问题,Kimi都能以友好、专业的方式提供帮助。

Project Cover

阿里绘蛙

绘蛙是阿里巴巴集团推出的革命性AI电商营销平台。利用尖端人工智能技术,为商家提供一键生成商品图和营销文案的服务,显著提升内容创作效率和营销效果。适用于淘宝、天猫等电商平台,让商品第一时间被种草。

Project Cover

吐司

探索Tensor.Art平台的独特AI模型,免费访问各种图像生成与AI训练工具,从Stable Diffusion等基础模型开始,轻松实现创新图像生成。体验前沿的AI技术,推动个人和企业的创新发展。

Project Cover

SubCat字幕猫

SubCat字幕猫APP是一款创新的视频播放器,它将改变您观看视频的方式!SubCat结合了先进的人工智能技术,为您提供即时视频字幕翻译,无论是本地视频还是网络流媒体,让您轻松享受各种语言的内容。

Project Cover

美间AI

美间AI创意设计平台,利用前沿AI技术,为设计师和营销人员提供一站式设计解决方案。从智能海报到3D效果图,再到文案生成,美间让创意设计更简单、更高效。

Project Cover

AIWritePaper论文写作

AIWritePaper论文写作是一站式AI论文写作辅助工具,简化了选题、文献检索至论文撰写的整个过程。通过简单设定,平台可快速生成高质量论文大纲和全文,配合图表、参考文献等一应俱全,同时提供开题报告和答辩PPT等增值服务,保障数据安全,有效提升写作效率和论文质量。

投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号