#文本驱动

RealmDreamer: 文本驱动的3D场景生成技术革新

2 个月前

RealmDreamer 3D场景生成文本驱动高斯溅射深度扩散 Github 开源项目

2 个月前

Text2Tex: 基于扩散模型的文本驱动纹理合成技术

2 个月前

Text2Tex 纹理合成扩散模型 3D网格文本驱动 Github 开源项目

2 个月前

FateZero: 一种创新的零样本文本引导视频编辑技术

3 个月前

FateZero 视频编辑文本驱动扩散模型零样本 Github 开源项目

3 个月前

TokenFlow: 一种革命性的视频编辑框架

3 个月前

TokenFlow 视频编辑文本驱动扩散模型生成式AI Github 开源项目

3 个月前

HumanTOMATO: 突破性的全身动作生成AI模型

3 个月前

HumanTOMATO 全身动作生成文本驱动 H²VQ 层次化GPT Github 开源项目

3 个月前

相关项目

HumanTOMATO

研究提出了一种新的文本驱动全身动作生成任务，通过给定的文本描述生成高质量、多样且连贯的面部表情、手势和身体动作。HumanTOMATO 通过使用 Holistic Hierarchical VQ-VAE 和 Hierarchical-GPT 确保动作生成与文本的精确对齐。实验显示，该模型在动作生成质量和文本匹配度上有显著优势。

FateZero

FateZero是第一个无需训练即可基于文本进行视频编辑的框架，该框架利用预训练扩散模型实现了一致且强大的编辑能力。通过中间注意力图保留结构与运动信息，并结合自注意力和时空注意力机制，确保视频帧的一致性。FateZero展示了从文本到视频的零噪点样式编辑和局部属性编辑的优越性能。

TokenFlow

TokenFlow 利用预训练的文本到图像扩散模型，实现无需额外训练或微调的高质量视频编辑。通过帧间对应关系传播扩散特征，支持局部及全局编辑，比如改变现有物体的纹理或添加半透明效果（如烟雾、火焰、雪），同时保持输入视频的空间布局和动态效果。

StableVideo

StableVideo 通过采用最新的文本驱动一致性扩散算法，提供了创新的视频编辑技术。用户可以下载预训练模型和示例视频，用于视频帧的编辑和渲染。该工具支持多种配置，提供详细的安装和运行指南，便于在本地进行实验。借助 ControlNet 和 Text2LIVE 等开源资源，StableVideo 展示了其在视频处理领域的强大应用潜力。如果该项目对研究有帮助，请参考相关学术论文。

Text2Tex

Text2Tex是一种新型3D网格纹理生成方法，利用文本提示和扩散模型创建高质量纹理。该技术融合局部修复和深度感知图像扩散模型，从多角度逐步合成高分辨率局部纹理。通过动态分割渲染视图和自动生成视图序列，Text2Tex有效避免了不一致和拉伸问题，同时优化了纹理更新过程。实验结果显示，在文本驱动纹理生成领域，Text2Tex的性能明显优于现有技术。

Mermaid Chart

Mermaid Chart是基于开源Mermaid工具开发的图表创建平台，支持通过文本方式生成复杂图表和流程图。平台提供实时协作功能、可视化编辑器和AI辅助工具，简化文档流程并提升团队沟通效率。作为面向企业团队的解决方案，Mermaid Chart为图表创建提供了智能高效的新选择。

realmdreamer

RealmDreamer是一项创新的3D场景生成技术，通过文本描述生成通用前向3D场景。该技术利用3D高斯泼溅表示和先进的文本到图像生成器，结合图像条件扩散模型和深度扩散模型，实现高质量3D场景的合成。RealmDreamer无需特定数据集训练，能够生成多样风格的3D场景，并支持从单一图像进行3D合成。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com