#多模态生成
Lumina-T2X - Lumina-T2X项目:多模态文本转换的流式扩散模型
Lumina-T2X大型扩散变换器文本转换多模态生成高分辨率图像生成Github开源项目
Lumina-T2X利用基于流的扩散变换器,实现文本向多种模态、分辨率和持续时间的转换,包括图像、音频和视频。其功能还包括高分辨率生成、多轮对话、深度图和分割图估计等。项目提供多语言提示和表情符号支持,适用于多种智能生成需求。访问项目页面了解更多详情和使用案例。
IP-Adapter - 轻量级图像提示适配器提升文图生成效果
IP-Adapter文本到图像生成扩散模型图像提示多模态生成Github开源项目
IP-Adapter是一款轻量高效的图像提示适配器,仅需22M参数即可为预训练文本到图像扩散模型提供图像提示功能。它不仅性能卓越,还可泛化到其他自定义模型,与现有控制工具兼容实现可控生成。IP-Adapter支持图像和文本提示配合使用,实现多模态图像生成,为AI图像生成领域带来新的可能性。
Awesome-LLMs-meet-Multimodal-Generation - 大语言模型与多模态生成编辑技术综述
多模态生成LLM图像生成视频生成语音生成Github开源项目
本项目综述了大语言模型在多模态生成和编辑领域的应用。涵盖图像、视频、3D和音频等多种模态,重点介绍基于大语言模型的技术。同时探讨多模态代理、理解和安全性问题。为研究人员提供全面资源,展示大语言模型在多模态内容创作中的最新进展。
Seeing-and-Hearing - 创新框架实现多任务视听内容生成
视频音频生成多模态生成扩散模型ImageBind跨模态生成Github开源项目
Seeing-and-Hearing项目提出了一种优化框架,用于跨模态和联合视听内容生成。该方法使用预训练的ImageBind模型连接独立的视频和音频生成模型,实现双向条件生成和联合视听生成。这一技术适用于视频到音频、音频到视频、图像到音频等多种任务,为内容创作提供了新的可能。
PortraitGen-code - 肖像视频编辑技术,结合多模态生成模型
PortraitGen多模态生成视频编辑3D重建风格迁移Github开源项目
这个项目实现了一种创新的肖像视频编辑方法,采用多模态生成模型来实现统一且高表达力的风格转换,能够处理单目RGB视频中的文本和图像驱动的高质量编辑以及光照调整,从而提高面部结构呈现的质量。
相关文章