#多模态生成

IP-Adapter:为预训练文本到图像扩散模型赋予图像提示能力的轻量级适配器

3 个月前
Cover of IP-Adapter:为预训练文本到图像扩散模型赋予图像提示能力的轻量级适配器

Seeing and Hearing: 开创性的开放域视听生成技术

3 个月前
Cover of Seeing and Hearing: 开创性的开放域视听生成技术

大型语言模型与多模态生成的完美融合:Awesome-LLMs-meet-Multimodal-Generation项目深度解析

3 个月前
Cover of 大型语言模型与多模态生成的完美融合:Awesome-LLMs-meet-Multimodal-Generation项目深度解析
相关项目
Project Cover

Lumina-T2X

Lumina-T2X利用基于流的扩散变换器,实现文本向多种模态、分辨率和持续时间的转换,包括图像、音频和视频。其功能还包括高分辨率生成、多轮对话、深度图和分割图估计等。项目提供多语言提示和表情符号支持,适用于多种智能生成需求。访问项目页面了解更多详情和使用案例。

Project Cover

IP-Adapter

IP-Adapter是一款轻量高效的图像提示适配器,仅需22M参数即可为预训练文本到图像扩散模型提供图像提示功能。它不仅性能卓越,还可泛化到其他自定义模型,与现有控制工具兼容实现可控生成。IP-Adapter支持图像和文本提示配合使用,实现多模态图像生成,为AI图像生成领域带来新的可能性。

Project Cover

Awesome-LLMs-meet-Multimodal-Generation

本项目综述了大语言模型在多模态生成和编辑领域的应用。涵盖图像、视频、3D和音频等多种模态,重点介绍基于大语言模型的技术。同时探讨多模态代理、理解和安全性问题。为研究人员提供全面资源,展示大语言模型在多模态内容创作中的最新进展。

Project Cover

Seeing-and-Hearing

Seeing-and-Hearing项目提出了一种优化框架,用于跨模态和联合视听内容生成。该方法使用预训练的ImageBind模型连接独立的视频和音频生成模型,实现双向条件生成和联合视听生成。这一技术适用于视频到音频、音频到视频、图像到音频等多种任务,为内容创作提供了新的可能。

Project Cover

PortraitGen-code

这个项目实现了一种创新的肖像视频编辑方法,采用多模态生成模型来实现统一且高表达力的风格转换,能够处理单目RGB视频中的文本和图像驱动的高质量编辑以及光照调整,从而提高面部结构呈现的质量。

投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号