AI 游戏开发工具（AI-GDT） 🎮

在这里，我们将跟踪最新的 AI 游戏开发工具，包括 LLM、代理（Agent）、代码、写作、图像、纹理、着色器、3D 模型、动画、视频、音频、音乐、歌声和分析。🔥

项目列表

工具（AI LLM）

来源	描述	论文	引擎	类型
AgentGPT	🤖 在您的浏览器中组装、配置和部署自主AI代理。			工具
AICommand	Unity 编辑器与 ChatGPT 集成。		Unity	工具
AIOS	大模型代理操作系统。			工具
Assistant CLI	使用 ChatGPT 服务的便捷命令行工具🔥			工具
Auto-GPT	一种实验性的开源尝试，旨在使 GPT-4 完全自主。			工具
BabyAGI	此 Python 脚本是一个 AI 驱动的任务管理系统示例。			工具
👶🤖🖥️ BabyAGI UI	BabyAGI UI 的设计是为了更容易在 web 应用程序中运行和开发 babyagi，如同 ChatGPT 一样。			工具
baichuan-7B	百川科技开发的大规模 7B 预训练语言模型。			工具
Baichuan-13B	百川智能科技开发的 13B 大型语言模型。			工具
Baichuan 2	百川智能科技开发的一系列大型语言模型。			工具
Bisheng	笔胜是一个开源的大模型开发运维平台，用于下一代AI应用。			工具
Character-LLM	一个用于角色扮演的可训练代理。	arXiv		工具
ChatDev	软件开发中用的通讯代理。	arXiv		工具
ChatGPT-API-unity	将 ChatGPT 聊天完成 API 绑定到 Unity 上的纯 C# 代码中。		Unity	工具
ChatGPTForUnity	用于 Unity 的 ChatGPT。		Unity	工具
ChatRWKV	ChatRWKV 类似于 ChatGPT，但由 RWKV（100% RNN）语言模型驱动，并且是开源的。			工具
ChatYuan	面向中英文对话的大型语言模型。			工具
Chinese-LLaMA-Alpaca-3	基于 Meta Llama 3 开发的中文Llama-3大型语言模型。			工具
Chrome-GPT	一个控制您桌面上 Chrome 浏览器的 AutoGPT 代理。			工具
CogVLM	CogVLM，一个强大的开源视觉语言基础模型。	arXiv		工具
CoreNet	用于训练深度神经网络的库。			工具
DBRX	DBRX 是由 Databricks 训练的大型语言模型。			工具
DCLM	用于语言模型的数据竞赛。	arXiv		工具
DemoGPT	使用 Llama 2 的力量自动生成 AI 应用程序。			工具
Design2Code	自动化前端工程。			工具
Devika	Devika 是一个代理型 AI 软件工程师。			工具
Devon	一个开源的配对编程助手。			工具
Dora	一次性生成强大的网站。			工具
Flowise	拖放 UI 构建您的自定义 LLM 流程使用 LangchainJS。			工具
Gemini	Gemini 从头开始为多模态而建——无缝地在文本、图像、视频、音频和代码之间进行推理。			工具
Gemma	Gemma 是一组轻量级、最先进的开源模型，基于创建 Google Gemini 模型的研究和技术。			工具
gemma.cpp	Google 的 Gemma 模型的轻量级、独立的 C++ 推理引擎。			工具
GLM-4	GLM-4-9B 是由智谱 AI 推出的 GLM-4 系列最新一代预训练模型的开源版本。			工具
GPT4All	一个训练在大量干净的助手数据（包括代码、故事和对话）上的聊天机器人。			工具
GPT-4o	GPT-4o（“o”代表“omni”）是实现更自然人机交互的一步——它接受任何文本、音频、图像和视频的组合输入，并生成任何文本、音频和图像的组合输出。			工具
GPTScript	用自然语言开发大模型应用。			工具
Grok-1	我们的 3140 亿参数专家混合模型 Grok-1 的权重和架构。			工具
HuggingChat	让社区最好的 AI 聊天模型人人可用。			工具
Hugging Face API Unity Integration	此 Unity 包提供了 Hugging Face 推理 API 的易于使用的集成，允许运营商在其 Unity 项目中访问和使用 Hugging Face AI 模型。		Unity	工具
ImageBind	ImageBind 一个嵌入空间绑定所有。	arXiv		工具
Index-1.9B	一个最先进的轻量级多语种大语言模型。			工具
InteractML-Unity	InteractML，一个用于 Unity3D 的可视化脚本框架。		Unity	工具
InteractML-Unreal Engine	将机器学习带入虚幻引擎。		Unreal Engine	工具
InternLM	InternLM 已经开源了一个 70 亿参数基础模型，一个适应实际场景的聊天模型和训练系统。	arXiv		工具
InternLM-XComposer	InternLM-XComposer2 是一个突破性的视觉语言大模型（VLLM），擅长自由形式的文本-图像组合与理解。	arXiv		工具
Jan	将AI带到您的桌面。			工具
Lamini	Lamini 让任何工程团队通过 RLHF 和在自己的数据上进行微调来超越通用的大规模语言模型。			工具
LaMini-LM	LaMini-LM 是从 ChatGPT 蒸馏并在大规模 2.58M 指令数据集上训练的小型高效语言模型集合。			工具
LangChain	LangChain 是一个用于开发大语言模型驱动的应用程序的框架。			工具
LangFlow	⛓️ LangFlow 是一个 LangChain 的 UI，使用 react-flow 提供一种轻松实验和原型制作流的方法。			工具
LaVague	使用大型动作模型框架自动化自动化流程。			工具
Lemur	开源语言代理基础模型。			工具
Lepton AI	一个简化AI服务构建的Python框架。			工具
Lit-LLaMA	基于nanoGPT的LLaMA语言模型实现。支持闪存注意力、Int8和GPTQ 4位量化、LoRA和LLaMA-Adapter微调和预训练。			工具
llama2-webui	在任何地方（Linux/Windows/Mac）使用gradio UI在GPU或CPU上本地运行Llama 2。			工具
Llama 3	官方的Meta Llama 3 GitHub站点。			工具
Llama 3.1	Llama是一种对开发者、研究者和企业开放的大型语言模型（LLM），旨在构建、实验和负责任地扩展他们的生成AI创意。			工具
LLaSM	大型语言和语音模型。			工具
LLM Answer Engine	使用Next.js、Groq、Mixtral、Langchain、OpenAI、Brave和Serper构建一个受Perplexity启发的答案引擎。			工具
llm.c	使用简单、原生的C/CUDA进行LLM训练。			工具
LLMUnity	在Unity中创建具有LLM的角色！		Unity	工具
LLocalSearch	LLocalSearch是一种完全本地运行的使用LLM代理的搜索引擎。			工具
LogicGamesSolver	一个使用AI、深度学习和计算机视觉解决逻辑游戏的Python工具。			工具
Large World Model (LWM)	Large World Model (LWM)是一种通用的大背景多模式自回归模型。	arXiv		工具
Lumina-T2X	Lumina-T2X是一种统一的文本到各种模式生成框架。	arXiv		工具
MetaGPT	多代理框架			工具
MiniCPM-2B	一种终端侧LLM，可超越Llama2-13B。			工具
MiniGPT-4	使用先进的大型语言模型增强视觉-语言理解。	arXiv		工具
MiniGPT-5	通过生成Vokens插入视觉和语言生成任务。	arXiv		工具
Mixtral 8x7B	一种高质量的稀疏专家混合模型。	arXiv		工具
Mistral 7B	迄今为止最好的7B模型，使用Apache 2.0许可。			工具
Mistral Large	Mistral Large是一种新的前沿文本生成模型，具有顶级推理能力。			工具
MLC LLM	使每个人都能够在自己的设备上开发、优化和部署AI模型。			工具
MobiLlama	向准确且轻量化的完全透明GPT迈进。	arXiv		工具
MoE-LLaVA	大型视觉语言模型的专家混合。	arXiv		工具
Moshi	Moshi是一种实验性的对话AI。			工具
MOSS	来自复旦大学的开源工具增强对话语言模型。			工具
mPLUG-Owl🦉	模块化赋能大型语言模型以实现多模式。	arXiv		工具
Nemotron-4	一种具有150亿参数的大型多语言模型，训练在8万亿文本tokens上。	arXiv		工具
NExT-GPT	任意到任意多模式大型语言模型。			工具
OLMo	开放语言模型	arXiv		工具
OmniLMM	强大的多模式大型模型，具有高性能和高效部署。			工具
OneLLM	一种框架，将所有模式与语言对齐。	arXiv		工具
Open-Assistant	OpenAssistant是一种聊天助手，可以理解任务，能够与第三方系统交互，并动态检索信息以完成任务。			工具
OpenDevin	自主AI软件工程师。			工具
Orion-14B	Orion-14B是一系列模型，包括一个14B基础LLM和一系列其他模型。	arXiv		工具
Panda	海外华人开源的大型语言模型，基于Llama-7B、-13B、-33B、-65B在中文领域进行持续预训练。			工具
Perplexica	一个AI驱动的搜索引擎。			工具
Pi	专用于个人协助和情感支持的AI聊天机器人。			工具
Qwen1.5	Qwen1.5是Qwen的改进版。			工具
Qwen2	Qwen2是由Qwen团队开发的大型语言模型系列，阿里云提供。			工具
Qwen-7B	阿里云提出的Qwen-7B（通义千问-7B）聊天和预训练大型语言模型的官方版本库。			工具
RepoAgent	RepoAgent是一个由大型语言模型（LLMs）驱动的开源项目，旨在提供一种智能方式来记录项目。	arXiv		工具
Sanity AI Engine	Unity游戏开发工具的Sanity AI引擎。		Unity	工具
SearchGPT	🌳 将ChatGPT连接到互联网			工具
ShareGPT4V	通过更好的描述提升大型多模式模型。			工具
Skywork	Skywork系列模型在高质量的多语言（主要是中文和英文）和代码数据的3.2TB数据上进行预训练。			工具
StableLM	Stability AI语言模型。	arXiv		工具
Stanford Alpaca	一种遵循指令的LLaMA模型。			工具
Text generation web UI	用于运行大型语言模型（如LLaMA、llama.cpp、GPT-J、OPT和GALACTICA）的gradio网络UI。			工具
TinyChatEngine	设备上的LLM推理库。			工具
ToolBench	一个用于训练、服务和评估大型语言模型的开放平台，专注于工具学习。			工具
Unity ChatGPT	Unity ChatGPT 实验.		Unity	工具
Unity OpenAI-API Integration	将openai GPT-3语言模型和ChatGPT API集成到Unity项目中.		Unity	工具
Unreal Engine 5 Llama LoRA	一个概念验证项目，展示了使用小型本地可训练LLM创建下一代文档工具的潜力.		Unreal Engine	工具
UnrealGPT	一组由GPT3/4驱动的Unreal Engine 5编辑器实用程序小部件.		Unreal Engine	工具
Video-LLaVA	通过对齐前的投影学习统一的视觉表示.	arXiv		工具
WebGPT	使用WebGPU在浏览器上运行GPT模型.			工具
Web3-GPT	使用AI部署智能合约.			工具
WordGPT	🤖 将ChatGPT的强大功能带到Microsoft Word.			工具
XAgent	一个用于解决复杂任务的自主LLM代理.			工具
Yi	一系列从头开始由开发者训练的大型语言模型.			工具
01 Project	开源语言模型计算机.			工具

游戏 (代理)

来源	描述	论文	类型
AgentBench	一个全面的基准，用于评估大型语言模型(Large Language Models, LLMs)作为代理的表现。	arXiv	代理
Agent Group Chat	用于更好地引导集体涌现行为的交互式群聊模仿。	arXiv	代理
AgentScope	更容易地开始构建由LLM赋能的多代理应用程序。	arXiv	代理
AgentSims	一个开源沙箱，用于大型语言模型的评估。		代理
AI Town	AI Town是一个虚拟小镇，其中AI角色生活、聊天和社交。		代理
anime.gf	CharacterAI的本地和开源替代品。		游戏
Astrocade	使用AI创建游戏。		游戏
Atomic Agents	Atomic Agents框架设计为模块化、可扩展且易于使用。		代理
AutoAgents	自动代理生成框架。		代理
AutoGen	启用下一代大型语言模型应用程序。	arXiv	代理
behaviac	Behaviac是一个游戏AI开发框架。		框架
Biomes	Biomes是使用Web技术，例如Next.js、Typescript、React和WebAssembly，为Web而构建的开源沙盒MMORPG。		游戏
Buffer of Thoughts	使用大型语言模型的思维增强推理。	arXiv	代理
Byzer-Agent	一个为所有人设计的简单、快速和分布式代理框架。		代理
Cat Town	一个由C(h)atGPT驱动的猫咪模拟游戏。		代理
CharacterGLM	使用大型语言模型自定义中文对话AI角色。	arXiv	代理
ChatDev	用于软件开发的通信代理。	arXiv	代理
CogAgent	CogAgent是一个基于CogVLM改进的开源视觉语言模型。	arXiv	代理
Cradle	面向通用计算机控制。		代理
crewAI	用于编排角色扮演、自主AI代理的框架。		代理
Dify	Dify是一个开源的LLM应用构建平台。		代理
Digital Life Project	拥有社会智能的自主3D角色。	arXiv	代理
everything-ai	您完全熟练、由AI驱动的本地聊天助手🤖。		代理
fabric	fabric是一个开源框架，用于使用AI增强人类能力。		代理
FastGPT	FastGPT是一个基于LLM的知识平台。		代理
fastRAG	高效的检索增强生成框架。		代理
GameAISDK	基于图像的游戏AI自动化框架。		框架
Generative Agents	人类行为的交互模拟。	arXiv	代理
Genie	生成式交互环境。		游戏
gigax	运行时，LLM驱动的NPC。		游戏
HippoRAG	神经生物学启发的大型语言模型的长期记忆。	arXiv	代理
Interactive LLM Powered NPCs	互动的LLM驱动的NPC，是一个开源项目，彻底改变您与任何游戏中NPC的互动！		游戏
IoA	一个开源框架，用于协作AI代理，使多样化、分布式的代理能够通过类似互联网的连接合作并解决复杂任务。		代理
KwaiAgents	一个由大型语言模型(LLMs)驱动的通用信息搜索代理系统。	arXiv	代理
LangChain	从原型到生产，完成您的LLM应用。		代理
Langflow	Langflow是LangChain的用户界面，使用react-flow设计，提供了一种轻松实验和原型流的方式。		代理
LangGraph Studio	LangGraph Studio提供了一种新的方法来开发LLM应用程序，通过提供专用代理IDE，允许可视化、交互和调试复杂的代理应用程序。		代理
LARP	用于开放世界游戏的语言代理角色扮演。	arXiv	代理
LLama Agentic System	Llama堆栈API的代理组件。		代理
LlamaIndex	LlamaIndex是您的LLM应用的数据框架。		代理
MindSearch	🔍一个基于LLM的多代理Web搜索引擎框架（类似于Perplexity.ai Pro和SearchGPT）。		代理
Mixture of Agents (MoA)	代理混合增强大型语言模型的能力。	arXiv	代理
MMRole	MMRole：开发和评估多模态角色扮演代理的综合框架。	arXiv	代理
Moonlander.ai	使用生成式AI开始构建3D游戏，而无需任何编码。		框架
MuG Diffusion	MuG Diffusion是基于稳定扩散（最强大的AIGC模型之一）的节奏游戏制谱AI，进行了大量修改以结合音频波。		游戏
OmAgent	一个用于解决复杂任务的多模态代理框架。		代理
OpenAgents	野外语言代理的开放平台。		代理
Opus	一个将文本变成视频游戏的AI应用程序。		游戏
Pipecat	用于语音和多模态对话AI的开源框架。		代理
Qwen-Agent	Qwen-Agent是一个框架，用于基于Qwen的指令跟随、工具使用、规划和记忆能力，开发LLM应用程序。		代理
Ragas	Ragas是一个框架，可以帮助您评估检索增强生成（RAG）管道。		代理
SIMA	用于3D虚拟环境的通用AI代理。		代理
StoryGames.ai	梦想家的AI用来制作游戏。		游戏
SWE-agent	代理计算机接口使软件工程语言模型成为可能。	arXiv	代理
TaskGen	一个基于任务的框架，通过LLM代理产生StrictJSON输出。		代理
Translation Agent	使用反思工作流程进行代理翻译。		代理
Video2Game	从单个视频中创建实时、互动、逼真且兼容浏览器的环境。	arXiv	游戏
V-IRL	将虚拟智能落地于现实生活中。	arXiv	代理
WebDesignAgent	用于网页设计的代理。		代理
XAgent	用于复杂任务解决的自主LLM代理。		代理

代码

来源	描述	论文	游戏引擎	类别
AI Code Translator	使用 AI 将代码从一种语言翻译到另一种语言。			代码
aiXcoder-7B	aiXcoder-7B 大型语言模型。			代码
bloop	bloop 是一个用 Rust 编写的快速代码搜索引擎。			代码
Chapyter	Jupyter 笔记本中的 ChatGPT 代码解释器。			代码
CodeGeeX	一个开放的多语言代码生成模型。	arXiv		代码
CodeGeeX2	一个更强大的多语言代码生成模型。			代码
CodeGeeX4	CodeGeeX4: 开放的多语言代码生成模型。			代码
CodeGen	CodeGen 是一个用于程序综合的开源模型。基于 TPU-v4 训练，与 OpenAI Codex 竞争。	arXiv		代码
CodeGen2	CodeGen2 模型用于程序综合。	arXiv		代码
Code Llama	Code Llama 是一个基于 Llama 2 的大型代码语言模型。			代码
CodeTF	用于最先进代码大型语言模型的一站式 Transformer 库。			代码
CodeT5	用于代码理解和生成的开源代码大型语言模型。			代码
Cursor	在一种新型编辑器中用 GPT-4 编写、编辑和聊天代码。			代码
OpenAI Codex	OpenAI Codex 是 GPT-3 的后代。			代码
PandasAI	Pandas AI 是一个 Python 库，将生成性人工智能功能集成到 Pandas 中，使数据框架具有会话能力。			代码
RobloxScripterAI	RobloxScripterAI 是一个为 Roblox 生成代码的 AI 工具。		Roblox	代码
Scikit-LLM	无缝集成强大的语言模型（如 ChatGPT）到 scikit-learn 中以增强文本分析任务。			代码
SoTaNa	开源软件开发助手。	arXiv		代码
Stable Code 3B	边缘计算中的编码。			代码
StarCoder	💫 StarCoder 是一个在源代码和自然语言文本上训练的语言模型。	arXiv		代码
StarCoder 2	StarCoder2 是一系列代码生成模型（3B, 7B, 15B），在 600 多种编程语言和一些自然语言文本（如 Wikipedia, Arxiv, 和 GitHub issues）上训练。	arXiv		代码
UnityGen AI	UnityGen AI 是一个用于 Unity 的 AI 代码生成插件。		Unity	代码

写作

来源	描述	类别
AI-Writer	AI 编写小说，生成奇幻和浪漫网络文章等。中文预训练生成模型。	写作
Notebook.ai	Notebook.ai 是一套为作家、游戏设计师和角色扮演者创建宏大宇宙及其一切内容的工具。	写作
Novel	Notion 风格 WYSIWYG 编辑器，具有 AI 驱动的自动补全功能。	写作
NovelAI	由 AI 驱动，轻松构建独特的故事、激动人心的故事、诱人的浪漫故事，或只是随便玩玩。	写作

图像

来源	描述	论文	游戏引擎	类型
AnyDoor	零样本对象级图像定制。	arXiv		图像
AnyText	多语言视觉文本生成与编辑。	arXiv		图像
AutoStudio	在多轮交互图像生成中制作一致的主体。	arXiv		图像
Blender-ControlNet	在Blender中使用ControlNet。		Blender	图像
BriVL	连接视觉和语言模型。	arXiv		图像
CatVTON	CatVTON：虚拟试穿所需的全部是扩散模型的串联。	arXiv		图像
CLIPasso	一种将物体图像转换为草图的方法，允许不同程度的抽象。	arXiv		图像
ClipDrop	秒级创建惊艳视觉效果。			图像
ComfyUI	一个功能强大、模块化的稳定扩散图形用户界面，具有图表/节点界面。			图像
ConceptLab	使用扩散先验约束进行创意生成。	arXiv		图像
ControlNet	ControlNet是通过添加额外条件来控制扩散模型的神经网络结构。	arXiv		图像
DALL·E 2	DALL·E 2是一个可以根据自然语言描述创建逼真图像和艺术作品的AI系统。			图像
Dashtoon Studio	Dashtoon Studio是一个由AI供能的漫画创作平台。			漫画
DeepAI	DeepAI提供一套利用AI增强创意的工具。			图像
DeepFloyd IF	IF由StabilityAI的DeepFloyd实验室开发。			图像
Depth Anything V2	Depth Anything V2	arXiv		图像
Depth map library and poser	与Automatic1111/stable-diffusion-webui的Control Net扩展一起使用的深度图库。			图像
Diffuse to Choose	丰富潜在扩散模型中的图像缝合条件，为虚拟全试提供方案。	arXiv		图像
Disco Diffusion	用于生成AI艺术和动画的工具组合，由各种笔记本电脑、模型和技巧组成的集成系统。			图像
DragGAN	生成图像中的基于点的交互式操控。	arXiv		图像
Draw Things	口袋中的AI辅助图像生成。			图像
DWPose	通过两阶段蒸馏进行有效的全身姿态估计。	arXiv		图像
EasyPhoto	你的智能AI照片生成器。			图像
Flux	此存储库包含使用我们的Flux潜在校正流变换器进行文本图像和图像图像生成的最低推理代码。			图像
Follow-Your-Click	通过短提示进行开放域区域图像动画。	arXiv		图像
Fooocus	专注于提示和生成。			图像
GIFfusion	使用稳定扩散创建GIF和视频。			图像
Grounded-Segment-Anything	自动检测、分割和生成图像、文本和音频输入中的所有内容。	arXiv		图像
Hua	Hua是一个使用稳定扩散(及其他)的AI图像编辑器。			图像
Hunyuan-DiT	具有细粒度中文理解能力的多分辨率强大扩散变压器。	arXiv		图像
IC-Light	IC-Light是一个操控图像光照项目。			图像
Ideogram	帮助人们变得更有创造力。			图像
Imagen	Imagen是一个从输入文本创建写实图像的AI系统。			图像
img2img-turbo	一步图像到图像转换，使用SD-Turbo。			图像
Img2Prompt	从稳定扩散生成的图像中获取提示。			图像
InstantID	零样本身份保持生成，秒级完成。	arXiv		图像
InternLM-XComposer2	InternLM-XComposer2是一个突破性的视觉语言大模型(VLLM)，在自由格式文本图像合成和理解方面表现出色。	arXiv		图像
KOALA	在内存高效和快速图像合成的扩散模型知识蒸馏中，自注意力重要。			图像
Kolors	Kolors：有效的写实文本到图像合成扩散模型训练方法。			图像
KREA	使用令人愉悦的AI设计工具生成图像和视频。			图像
LaVi-Bridge	连接不同语言模型和生成视觉模型进行文本到图像生成。	arXiv		图像
LayerDiffusion	使用潜在透明度进行透明图像层扩散。	arXiv		图像
Lexica	一个稳定扩散提示搜索引擎。			图像
LlamaGen	自回归模型击败扩散：Llama用于可扩展图像生成。	arXiv		图像
MetaShoot	MetaShoot是一个照片棚的数字双胞胎，作为虚幻引擎的插件开发，给予任何创作者以最简单和最快的方式制作高度逼真渲染的能力。		Unreal Engine	图像
Midjourney	Midjourney是一个独立的研究实验室，探索新思维媒介并扩展人类的想象力。			图像
MIGC	MIGC：多实例生成控制器用于文本到图像合成。	arXiv		图像
MimicBrush	通过参考模仿进行零样本图像编辑。	arXiv		图像
Omost	Omost是一个将LLM编码能力转换为图像生成(更准确地说是图像合成)能力的项目。			图像
Openpose Editor	AUTOMATIC1111's stable-diffusion-webui的Openpose编辑器。			图像
Outfit Anyone	超高质量的虚拟试穿，适用于任何服装和任何人。			图片
PaintsUndo	PaintsUndo: 数字绘画行为的基本模型。			图片
PhotoMaker	通过堆叠ID嵌入定制逼真的人类照片。	arXiv		图片
Photoroom	AI背景生成器。			图片
Plask	云端AI图像生成。			图片
Prompt.Art	生成器中心。			图片
PuLID	通过对比对齐实现纯净和闪电般的ID定制。	arXiv		图片
Rich-Text-to-Image	使用丰富文本的表达性文本到图像生成。	arXiv		图片
RPG-DiffusionMaster	掌握文本到图像扩散：重生成、规划和通过多模态LLM进行生成。			图片
SEED-Story	SEED-Story: 使用大型语言模型生成多模态长篇故事。	arXiv		图片
Segment Anything	Segment Anything Model (SAM): 来自Meta AI的新AI模型，可以在任何图像中通过单击“剪切”任何对象。	arXiv		图片
Segment Anything Model 2 (SAM 2)	SAM 2: 在图像和视频中分割任何事物。	arXiv		图片
sd-webui-controlnet	ControlNet的WebUI扩展插件。			图片
SDXL-Lightning	渐进式对抗扩散蒸馏。	arXiv		图片
SDXS	具有图像条件的实时一步潜在扩散模型。			图片
Stable.art	以Automatic1111为后端的Stable Diffusion的Photoshop插件（本地或使用Google Colab）。			图片
Stable Cascade	Stable Cascade由三个模型组成：Stage A、Stage B和Stage C，代表生成图像的级联过程，因此命名为“Stable Cascade”。			图片
Stable Diffusion	潜在的文本到图像扩散模型。			图片
stable-diffusion.cpp	纯C/C++的Stable Diffusion。			图片
Stable Diffusion web UI	基于Gradio库的Stable Diffusion浏览器界面。			图片
Stable Diffusion web UI	基于Web的Stable Diffusion用户界面。			图片
Stable Diffusion WebUI Chinese	中文版Stable Diffusion WebUI。			图片
Stable Diffusion XL	从文本生成图像。	arXiv		图片
Stable Diffusion XL Turbo	实时文本到图像生成。			图片
Stable Doodle	Stable Doodle是一款从草图到图像的工具，可以将简单的绘画转化为动态图像。			图片
StableStudio	由Stability AI开发的StableStudio。			图片
StreamDiffusion	实时互动生成的流程级解决方案。			图片
StyleDrop	任何风格的文本到图像生成。	arXiv		图片
SyncDreamer	从单视图图像生成多视图一致的图像。	arXiv		图片
UltraEdit	UltraEdit: 基于指令的大规模细粒度图像编辑。	arXiv		图片
UltraPixel	UltraPixel: 将超高分辨率图像合成推向新高峰。	arXiv		图片
Unity ML Stable Diffusion	Unity上的核心ML Stable Diffusion。		Unity	图片
Vispunk Visions	文本到图像生成平台。			图片

纹理

来源	描述	论文	游戏引擎	类型
CRM	使用卷积重建模型将单张图像转化为3D纹理网格。	arXiv		纹理
DreamMat	利用几何和光照感知扩散模型生成高质量的PBR材质。	arXiv		纹理
DreamSpace	使用文本驱动的全景纹理传播，梦想到你的房间空间。			纹理
Dream Textures	集成在Blender中的稳定扩散。使用简单的文本提示制作纹理、概念艺术、背景资产等。		Blender	纹理
InstructHumans	利用指令编辑动画3D人类纹理。	arXiv		纹理
InteX	通过统一的深度感知修复进行交互式文本到纹理合成。	arXiv		纹理
MaterialSeg3D	MaterialSeg3D: 从2D先验中分割3D资产的密集材质。	arXiv		纹理
MeshAnything	MaterialSeg3D: 从2D先验中分割3D资产的密集材质。	arXiv		网格
Neuralangelo	高保真神经表面重建。	arXiv		纹理
Paint-it	通过深度卷积纹理图优化和物理基础渲染进行文本到纹理合成。			纹理
Polycam	只需输入文字即可创建自己的3D纹理。			纹理
TexFusion	使用文本引导的图像扩散模型合成3D纹理。	arXiv		纹理
Text2Tex	通过扩散模型进行文本驱动的纹理合成。	arXiv		纹理
Texture Lab	AI生成的纹理。你可以使用文本提示生成自己的纹理。			纹理
With Poly	使用Poly创建纹理。使用AI在免费的在线编辑器中生成3D材质，或搜索我们不断增长的社区库。			纹理
X-Mesh	X-Mesh: 通过动态文本指导实现快速准确的文本驱动3D风格化。	arXiv		纹理

着色器

来源	描述	论文	游戏引擎	类型
AI Shader	基于ChatGPT的Unity着色器生成器。		Unity	着色器

3D模型

来源	描述	论文	游戏引擎	类型
Anything-3D	Segment-Anything + 3D。让任何东西提升到3D。	arXiv		模型
Any2Point	Any2Point：使任何模态的大型模型能够高效理解3D。	arXiv		3D
BlenderGPT	使用英语命令通过OpenAI的GPT-4控制Blender。		Blender	模型
Blender-GPT	集成GPT3/4和Whisper的全能Blender助手。		Blender	模型
Blockade Labs	使用Skybox Lab通过文本提示生成令人难以置信的360°天空盒体验的终极AI解决方案，数字炼金术变为现实。			模型
CF-3DGS	COLMAP-Free 3D Gaussian Splatting。	arXiv		3D
CharacterGen	CharacterGen：通过多视角姿态规范化从单个图像中高效生成3D角色。	arXiv		3D
chatGPT-maya	一个简单的Maya工具，利用开放AI根据描述性指令执行基本任务。		Maya	模型
CityDreamer	无限3D城市的组合生成模型。	arXiv		3D
CSM	从图像和视频生成3D世界。			3D
Dash	您在Unreal Engine中建立世界的副驾驶。		Unreal Engine	3D
DreamCatalyst	DreamCatalyst：通过控制可编辑性和身份保护进行快速和高质量的3D编辑。	arXiv		3D
DreamGaussian4D	生成式4D高斯散点。	arXiv		4D
DUSt3R	简化几何3D视觉。	arXiv		3D
GALA3D	GALA3D：通过布局引导的生成高斯散点实现文本到复杂3D场景的生成。	arXiv		3D
GaussCtrl	GaussCtrl：多视角一致的文本驱动3D高斯散点编辑。	arXiv		3D
GaussianCube	适用于3D生成建模的结构化和明确的辐射表示。	arXiv		3D
GaussianDreamer	通过点云先验实现从文本到3D高斯点云的快速生成。	arXiv		3D
GenieLabs	用AI-UGC增强您的游戏。			3D
HiFA	高保真文本到3D，具有先进的扩散指导。			模型
HoloDreamer	HoloDreamer：从文本描述生成整体3D全景世界。	arXiv		3D
Infinigen	使用程序生成无限的逼真世界。	arXiv		3D
Instruct-NeRF2NeRF	通过指令编辑3D场景。	arXiv		模型
Interactive3D	通过交互3D生成创建您想要的内容。	arXiv		3D
Isotropic3D	基于单个CLIP嵌入的图像到3D生成。			3D
LATTE3D	大规模委托文本到增强3D的合成。	arXiv		3D
LION	用于3D形状生成的潜在点扩散模型。	arXiv		模型
Luma AI	捕捉逼真的3D。无与伦比的逼真度、反射和细节。VFX的未来即现在，属于每个人！			模型
lumine AI	AI赋能的创造力。			3D
Make-It-3D	从单个图像生成高保真3D，使用扩散先验。	arXiv		模型
Meshy	使用AI创建令人惊叹的3D游戏资产。			3D
Mootion	神奇的3D AI动画制作器。			3D
MVDream	多视角扩散用于3D生成。	arXiv		3D
NVIDIA Instant NeRF	快速生成神经图形原语：闪电般快速的NeRF等。			模型
One-2-3-45	在45秒内从任意单个图像生成3D网格，无需每个形状的优化。	arXiv		模型
Paint3D	使用无光照纹理扩散模型绘制任何3D内容。	arXiv		3D
PAniC-3D	从动漫角色肖像的单视图进行风格化3D重建。	arXiv		模型
Point·E	点云扩散用于3D模型合成。			模型
ProlificDreamer	使用变分评分蒸馏进行高保真和多样化的文本到3D生成。	arXiv		模型
SF3D	SF3D：具有UV解包和光照解耦的稳定快速3D网格重建。	arXiv		3D
Shap-E	基于文本或图像生成3D对象。	arXiv		模型
Sloyd	3D建模从未如此简单。			模型
Spline AI	AI的力量来到第三维度。使用提示生成对象、动画和纹理。			模型
Stable Dreamfusion	文本到3D模型Dreamfusion的pytorch实现，基于文本到2D模型的稳定扩散。			模型
SV3D	使用潜在视频扩散技术从单个图像生成新颖的多视角合成和3D生成。	arXiv		3D
Tafi	AI文本转3D角色引擎。			模型
3D-GPT	使用大型语言模型进行程序化3D建模。	arXiv		3D
3D-LLM	将3D世界注入大型语言模型中。	arXiv		3D
3Dpresso	从视频中提取对象的3D模型。			模型
3DTopia	5分钟内生成3D模型。	arXiv		3D
threestudio	一个统一的3D内容生成框架。			模型
TripoSR	从单张图像快速前馈3D重建的开源模型。	arXiv		模型
Unique3D	从单张图像生成高质量且高效的3D网格。	arXiv		3D
UnityGaussianSplatting	Unity中的玩具高斯喷射可视化。		Unity	3D
ViVid-1-to-3	使用视频扩散模型的新视角合成。	arXiv		3D
Voxcraft	使用AI打造可使用的3D模型。			3D
Wonder3D	使用跨域扩散从单张图像生成3D模型。	arXiv		3D
Zero-1-to-3	零样本从单张图像生成3D对象。	arXiv		模型

头像

来源	描述	论文	游戏引擎	类型
AniPortrait	音频驱动的真实感头像动画合成。	arXiv		头像
CALM	可操控虚拟角色的条件对抗潜在模型。	arXiv		头像
ChatAvatar	在文本引导下逐步生成可动画的 3D 面孔。			头像
ChatdollKit	ChatdollKit使您能够将 3D 模型转换为聊天机器人。		Unity	头像
DreamTalk	当表情丰富的谈话头生成遇到扩散概率模型。	arXiv		头像
Duix	Duix - 基于硅的数字人 SDK 🌐🤖			头像
EchoMimic	EchoMimic: 通过可编辑的标志条件实现的逼真的音频驱动肖像动画。	arXiv		头像
EMOPortraits	加强情感的多模态单次头像。			头像
E3 Gen	高效、富有表现力且可编辑的头像生成。	arXiv		头像
GeneAvatar	从单图像生成的通用表情感知体积头部头像编辑。	arXiv		头像
GeneFace++	通用且稳定的实时3D谈话面孔生成。			头像
Hallo	用于肖像图像动画的分层音频驱动视觉合成。	arXiv		头像
HeadSculpt	用文本制作3D头部头像。	arXiv		头像
IntrinsicAvatar	IntrinsicAvatar: 通过显式光线追踪从单眼视频物理基础逆向渲染动态人类。	arXiv		头像
Linly-Talker	数字头像对话系统。			头像
LivePortrait	LivePortrait: 通过拼接和重新定向控制实现高效肖像动画。	arXiv		头像
MotionGPT	将人体运动视作外语，使用大型语言模型的统一运动语言生成模型。	arXiv		头像
MusePose	MusePose: 一个用于虚拟人类生成的姿态驱动图像到视频框架。			头像
MuseTalk	通过潜在空间修复实现的实时高质量唇部同步。			头像
MuseV	通过视觉条件并行降噪实现无限长度高保真虚拟人类视频生成。			头像
Portrait4D	使用合成数据学习单次4D头部头像合成。	arXiv		头像
Ready Player Me	在几天内将可定制的头像集成到您的游戏或应用中。			头像
RodinHD	RodinHD: 使用扩散模型生成高保真3D头像。	arXiv		头像
StyleAvatar3D	利用图像-文本扩散模型生成高保真3D头像。	arXiv		头像
Text2Control3D	使用几何引导的图像到文本扩散模型生成可控的3D头像。	arXiv		头像
Topo4D	拓扑保持高保真 4D 头部捕捉的高斯喷洒。	arXiv		头像
UnityAIWithChatGPT	基于 Unity, 实现 ChatGPT+UnityChan 语音互动显示。		Unity	头像
Vid2Avatar	通过自监督场景分解从野外视频重建3D头像。	arXiv		头像
VLOGGER	用于化身合成的多模态扩散。			头像
Wild2Avatar	渲染遮挡背后的人类。	arXiv		头像

动画

<SOURCE_TEXT>

来源	描述	论文	类型
Animate Anyone	一致且可控的图像到视频的角色动画合成。	arXiv	动画
AnimateAnything	基于运动指导的精细开放域图像动画。	arXiv	动画
AnimateDiff	无需特定调优，动画化个性化文本到图像扩散模型。	arXiv	动画
AnimateLCM	通过四个步骤加速视频生成！	arXiv	动画
AnimateZero	视频扩散模型是零样本图像动画生成器。	arXiv	动画
AnimationGPT	一种用于生成游戏战斗动作素材的 AIGC 工具。		动画
Deforum	Deforum 利用稳定扩散技术生成不断演变的 AI 视觉效果。		动画
DreaMoving	基于扩散模型的人类视频生成框架。	arXiv	动画
FaceFusion	下一代换脸和增强工具。		动画
FreeInit	在视频扩散模型中弥合初始化差距。	arXiv	动画
GeneFace	广义和高保真音频驱动的 3D 说话人脸合成。	arXiv	动画
ID-Animator	零样本身份保留的人类视频生成。	arXiv	动画
MagicAnimate	使用扩散模型生成时间一致性的人类图像动画。	arXiv	动画
NUWA	DragNUWA 是一个开放域基于扩散的视频生成模型，可以将文本、图像和轨迹控制作为输入，实现可控视频生成。	arXiv	动画
NUWA-Infinity	NUWA-Infinity 是一个多模态生成模型，可以根据给定的文本、图像或视频输入生成高质量图像和视频。		动画
NUWA-XL	一种用于极长视频生成的扩散建筑上的新型架构。		动画
Omni Animation	AI 生成高保真动画。		动画
PIA	通过文本到图像模型中的即插即用模块实现个性化图像动画。	arXiv	动画
SadTalker	学习逼真的 3D 运动系数以实现样式化音频驱动的单图像说话人像动画。	arXiv	动画
SadTalker-Video-Lip-Sync	该项目基于 SadTalkers Wav2lip 实现视频唇形合成。		动画
Stable Animation	面向开发者的强大文本到动画工具。		动画
TaleCrafter	一个支持多个角色的互动故事可视化工具。	arXiv	动画
ToonCrafter	ToonCrafter：生成卡通插值。	arXiv	动画
Wav2Lip	准确地在自然环境中实现视频唇形同步。	arXiv	动画
Wonder Studio	一个自动为 CG 角色在实景场景中进行动画制作、照明和合成的 AI 工具。		动画

视觉

</SOURCE_TEXT>

来源	描述	论文	类型
Cambrian-1	Cambrian-1：一个完全开放的、以视觉为中心的多模态大型语言模型的探索。	arXiv	多模态 LLM
CogVLM2	基于 Llama3-8B 的 GPT4V 级开源多模态模型。		视觉
CoTracker	更好的一起跟踪。	arXiv	视觉
EVF-SAM	EVF-SAM：用于文本提示的分割模型的早期视觉-语言融合。	arXiv	视觉
FaceHi	更好的一起跟踪。		视觉
InternLM-XComposer2	InternLM-XComposer2 是一个突破性的视觉-语言大模型（VLLM），在自由形式的文本-图像组合和理解中表现优异。	arXiv	视觉
Kangaroo	Kangaroo：支持长时间视频输入的强大视频-语言模型。		视觉
LGVI	通过多模态大型语言模型实现语言驱动的视频修复。		视觉
LLaVA++	使用 LLaMA-3 和 Phi-3 扩展视觉能力。		视觉
LongVA	从语言到视觉的长上下文转移。	arXiv	视觉
MaskViT	用于视频预测的掩码视觉预训练。	arXiv	视觉
MiniCPM-Llama3-V 2.5	您手机上的 GPT-4V 级 MLLM。		视觉
MoE-LLaVA	大规模视觉-语言模型的专家混合模型。	arXiv	视觉
MotionLLM	从人体动作和视频中理解人类行为。	arXiv	视觉
PLLaVA	从图像到视频的无参数扩展，用于视频密集标题生成。	arXiv	视觉
Qwen-VL	一个多功能的视觉-语言模型，用于理解、本地化、文本阅读等。	arXiv	视觉
ShareGPT4V	通过更好的标题改进大型多模态模型。	arXiv	视觉
SOLO	SOLO：用于可扩展视觉-语言建模的单一 Transformer。	arXiv	视觉
Video-CCAM	Video-CCAM：通过因果交叉注意力掩码推进视频-语言理解。		视觉
Video-LLaVA	在投影之前通过对齐学习统一视觉表示。	arXiv	视觉
VideoLLaMA 2	在视频 LLMs 中推进时空建模和音频理解。	arXiv	视觉
Video-MME	第一个关于视频分析的多模态 LLMs 全面评估基准。	arXiv	视觉
Vitron	用于理解、生成、分割、编辑的统一像素级视觉 LLM。		视觉
VILA	VILA：关于视觉语言模型的预训练。	arXiv	视觉

<a href="#table-of-contents">^ back to contents ^</a>

视频

来源	描述	论文	类型
360DVD	基于360度视频扩散模型的可控全景视频生成。	arXiv	视频
Animate-A-Story	通过增强检索的视频生成来讲故事。	arXiv	视频
Anything in Any Scene	真实感视频对象插入。		视频
ART•V	用扩散模型进行自回归文本到视频生成。	arXiv	视频
Assistive	生成性视频平台，让你的创意变成现实。		视频
AtomoVideo	高保真图像到视频生成。	arXiv	视频
BackgroundRemover	背景移除器，可使用AI通过简单的命令行界面从图像和视频中移除背景，且免费开源。		视频
Boximator	为视频合成生成丰富且可控的动作。	arXiv	视频
CoDeF	用于时间一致性视频处理的内容变形场。	arXiv	视频
CogVideo	根据文本描述生成视频。		视频
CogVideoX	CogVideoX 是视频生成模型的开源版本，同源于清影。		视频
CogVLM	CogVLM 是一个强大的开源视觉语言模型 (VLM)。		视觉
CoNR	从手绘动漫角色表 (ACS) 中生成生动的舞蹈视频。	arXiv	视频
Decohere	创造无法拍摄的内容。		视频
Descript	Descript 是一种简单、强大且有趣的编辑方式。		视频
Diffutoon	通过扩散模型进行高分辨率可编辑卡通渲染。	arXiv	视频
dolphin	基于大语言模型的一般视频互动平台。		视频
DomoAI	借助DomoAI放大你的创造力。		视频
DynamiCrafter	利用视频扩散先验动画开放领域图像。	arXiv	视频
EDGE	我们介绍EDGE，一种强大的可编辑舞蹈生成方法，能够创建逼真且物理上合理的舞蹈，并且能够忠实于任意输入音乐。	arXiv	视频
EMO	Emote Portrait Alive - 通过Audio2Video扩散模型在弱条件下生成表情丰富的肖像视频。	arXiv	视频
Emu Video	通过显式图像条件化对文本到视频生成进行因子化。		视频
Etna	Etna 可以基于简短的文本描述生成相应的视频内容。		视频
Fairy	快速并行化的指令导向视频到视频合成。		视频
Follow Your Pose	使用无姿势视频进行姿势引导的文本到视频生成。	arXiv	视频
FullJourney	完整的AI创作工具套件。		视频
Gen-2	多模态的AI系统，可以使用文本、图像或视频片段生成新视频。		视频
Generative Dynamics	生成性图像动态。		视频
Genie	生成性互动环境。	arXiv	视频
Genmo	用AI魔法般地制作视频。		视频
GenTron	用扩散变压器进行图像和视频生成。		视频
HiGen	文本到视频生成的层次化时空解耦。		视频
Hotshot-XL	Hotshot-XL 是一个AI文本到GIF模型，训练目的是与稳定扩散XL协同工作。		视频
Imagen Video	给定文本提示，Imagen Video 使用基础视频生成模型和一系列交替的空间和时间视频超分辨率模型生成高清视频。		视频
InstructVideo	使用人为反馈指导视频扩散模型。	arXiv	视频
I2VGen-XL	通过级联扩散模型进行高质量图像到视频合成。	arXiv	视频
LaVie	使用级联潜在扩散模型进行高质量视频生成。	arXiv	视频
LTX Studio	LTX Studio 是一个为创作者、营销人员、电影制片人和工作室提供的全面的AI驱动电影制作平台。		视频
Lumiere	用于视频生成的时空扩散模型。	arXiv	视频
LVDM	用于高保真长视频生成的潜在视频扩散模型。	arXiv	视频
MagicVideo	用潜在扩散模型高效视频生成。	arXiv	视频
MagicVideo-V2	多阶段高美学视频生成。	arXiv	视频
Magic Hour	简化了的创作者AI视频制作。		视频
MAGVIT-v2	分词器是视觉生成的关键。		视频
MAGVIT	蒙版生成视频变压器。		视频
Make-A-Video	Make-A-Video 是最先进的AI系统，可以从文本生成视频。	arXiv	视频
Make Pixels Dance	高动态视频生成。	arXiv	视频
Make-Your-Video	使用文本和结构指导进行定制视频生成。	arXiv	视频
MicroCinema	用于文本到视频生成的分而治之方法。	arXiv	视频
Mini-Gemini	挖掘多模态视觉语言模型的潜力。		视觉
MobileVidFactory	基于扩散的社交媒体视频自动生成，应用于移动设备的文本。		视频
MOFA-Video	基于固定图片到视频扩散模型中的生成运动场适应来控制图像动画。	arXiv	视频
MoneyPrinterTurbo	使用大模型一键生成短视频。		视频
Moonvalley	Moonvalley 是一个开创性的文本到视频生成 AI 模型。		视频
Mora	类似于 Sora 的通用视频生成器。	arXiv	视频
Morph Studio	用我们的文本到视频 AI 魔法，通过提示展现你的创造力。		视频
MotionCtrl	一个统一且灵活的视频生成运动控制器。	arXiv	视频
MotionDirector	文本到视频扩散模型的运动自定义。	arXiv	视频
Motionshop	在视频中用 3D 角色替换人物的应用程序。		视频
Mov2mov	Automatic1111/stable-diffusion-webui 的 Mov2mov 插件。		视频
MovieFactory	使用大生成模型从文本自动创建电影。	arXiv	视频
Neural Frames	探索视觉世界的合成器。		视频
NeverEnds	创建你的世界。		视频
Open-Sora	为所有人提供高效视频制作的普及化。		视频
Open-Sora	Open-Sora 计划。		视频
Phenaki	一个从文本生成视频的模型，可以随时间变化提示，视频时间可长达几分钟。	arXiv	视频
Pika Labs	Pika Labs 正在用 AI 革新视频制作体验。		视频
Pixeling	Pixeling 让我们的客户能够创建高度精确的超现实且极具控制力的视觉内容，包括图像、视频和 3D 模型。		视频
PixVerse	使用 AI 创建令人惊叹的视频。		视频
Pollinations	创作变得简单、快速、有趣。		视频
Reuse and Diffuse	文本到视频生成的迭代去噪。	arXiv	视频
ShortGPT	一个用于自动化短视频内容创作的实验性 AI 框架。		视频
Show-1	将像素和潜在扩散模型结合用于文本到视频生成。	arXiv	视频
Snap Video	用于文本到视频合成的缩放时空变压器。	arXiv	视频
Sora	从文本生成视频。		视频
SoraWebui	SoraWebui 是一个开源的 Sora 网络客户端，用户可以轻松使用 OpenAI 的 Sora 模型从文本创建视频。		视频
StableVideo	基于文本驱动的稳定扩散视频编辑。		视频
Stable Video Diffusion	稳定视频扩散（SVD）图像到视频。		视频
StoryDiffusion	用于长范围图像和视频生成的一致自注意力。	arXiv	视频
StreamingT2V	从文本生成一致、动态和可扩展的长视频。	arXiv	视频
StyleCrafter	使用风格适配器增强风格化的文本到视频生成。	arXiv	视频
TATS	使用时间不可知 VQGAN 和时间敏感变压器生成长视频。		视频
Text2Video-Zero	文本到图像扩散模型是零样本视频生成器。	arXiv	视频
TF-T2V	使用无文本视频扩展文本到视频生成的配方。	arXiv	视频
Tora	Tora: 基于轨迹的扩散变压器视频生成模型。	arXiv	视频
Track-Anything	Track-Anything 是一个灵活且交互性的视频对象跟踪与分割工具，基于 Segment Anything 和 XMem。	arXiv	视频
Tune-A-Video	图像扩散模型的一次性调优用于文本到视频生成。	arXiv	视频
TwelveLabs	像人类一样理解视频的多模态 AI。		视频
UniVG	面向统一模式的视频生成。		视频
VGen	基于扩散模型的视频生成整体生态系统。	arXiv	视频
Video-ChatGPT	Video-ChatGPT 是一个能够生成视频对话的模型。	arXiv	视频
VideoComposer	具有运动控制功能的组件化视频合成。	arXiv	视频
VideoCrafter1	用于高质量视频生成的开放扩散模型。	arXiv	视频
VideoCrafter2	克服数据限制的高质量视频扩散模型。	arXiv	视频
VideoDrafter	具有 LLM 的内容一致多场景视频生成。	arXiv	视频
VideoElevator	通过多功能文本到图像扩散模型提升视频生成质量。	arXiv	视频
VideoFactory	在时空扩散中交换注意力用于文本到视频生成。		视频
VideoGen	高分辨率文本到视频生成的参考引导潜在扩散方法。	arXiv	视频
VideoLCM	视频潜在一致性模型。	arXiv	视频
Video LDMs	调整你的潜在变量：使用潜在扩散模型生成高分辨率视频。	arXiv	视频
Video-LLaVA	在投影前对齐中学习联合视觉表示。	arXiv	视频
VideoMamba	用于高效视频理解的状态空间模型。	arXiv	视频
Video-of-Thought	思考视频：从感知到认知逐步的视频推理。		视频
VideoPoet	零样本视频生成的大型语言模型。	arXiv	视频
Vispunk Motion	仅用文本创建现实视频。		视频
VisualRWKV	VisualRWKV 是增强版的 RWKV 语言模型，使 RWKV 能处理各种视觉任务。		视觉
V-JEPA	视频联合嵌入预测架构。	arXiv	视频
W.A.L.T	使用扩散模型生成逼真的视频。	arXiv	视频
Zeroscope	Zeroscope 文本到视频转换。		视频

音频

来源	描述	论文	类型
AcademiCodec	一个面向学术研究的开源音频编解码模型。		音频
Amphion	一个开源的音频、音乐和语音生成工具包。	arXiv	音频
ArchiSound	使用扩散模型进行音频生成，基于PyTorch。		音频
Audiobox	使用自然语言提示进行统一的音频生成。		音频
AudioEditing	使用DDPM反转进行零样本无监督和基于文本的音频编辑。	arXiv	音频
Audiogen Codec	一种低压缩的48khz立体声神经音频编解码器，优化音频保真度 🎵。		音频
AudioGPT	理解和生成语音、音乐、声音和会说话的头。	arXiv	音频
AudioLCM	通过潜在一致性模型进行文本到音频生成。	arXiv	音频
AudioLDM	使用潜在扩散模型进行文本到音频生成。	arXiv	音频
AudioLDM 2	使用自监督预训练学习整体的音频生成。	arXiv	音频
Auffusion	利用扩散模型和大型语言模型的力量进行文本到音频生成。	arXiv	音频
CTAG	通过合成器编程进行创意文本到音频生成。		音频
FoleyCrafter	FoleyCrafter：使无声视频生动起来，配以逼真且同步的声音。	arXiv	音频
MAGNeT	使用单个非自回归变换器的遮罩音频生成。		音频
Make-An-Audio	使用提示增强扩散模型进行文本到音频生成。	arXiv	音频
Make-An-Audio 3	通过基于流的扩散变换器进行文本转音频。	arXiv	音频
NeuralSound	使用声学传递的基于学习的模式声音合成。	arXiv	音频
OptimizerAI	为创作者、游戏制作者、艺术家、视频制作者提供声音。		音频
Qwen2-Audio	由阿里巴巴云提出的Qwen2-Audio聊天和预训练大型音频语言模型。	arXiv	音频
SEE-2-SOUND	零样本空间环境到空间声音。	arXiv	音频
SoundStorm	高效并行音频生成。	arXiv	音频
Stable Audio	快速时间条件的潜在音频扩散。		音频
Stable Audio Open	Stable Audio Open 1.0可以从文本提示生成可变长度（最长达47秒）的44.1kHz立体声音频。		音频
SyncFusion	SyncFusion：多模态同步开始的视频到音频拟音合成。	arXiv	音频
TANGO	使用指令调谐LLM和潜在扩散模型进行文本到音频生成。		音频
VTA-LDM	视频到音频生成，带有隐藏对齐。	arXiv	音频
Wavjourney	使用大型语言模型进行合成音频创作。	arXiv	音频

音乐

来源	描述	论文	类型
AIVA	人工智能创作情感配乐。		音乐
Amper Music	由Amper提供支持的定制音乐生成技术。		音乐
Boomy	创建生成音乐，与世界分享。		音乐
ChatMusician	将内在音乐能力引入大型语言模型。		音乐
Chord2Melody	自动音乐生成AI。		音乐
Diff-BGM	用于视频背景音乐生成的扩散模型。	arXiv	音乐
GPTAbleton	用于处理GPT响应并通过AbletonOSC和python-osc将MIDI音符发送到Ableton剪辑的草稿脚本。		音乐
HeyMusic.AI	AI音乐生成器。		音乐
Image to Music	AI图像到音乐生成器是一种使用人工智能将图像转换为音乐的工具。		音乐
JEN-1	通过全向扩散模型进行文本引导的通用音乐生成。		音乐
Jukebox	一个音乐生成模型。	arXiv	音乐
Magenta	Magenta是一个研究项目，探索机器学习在艺术和音乐创作过程中的作用。		音乐
MeLoDy	高效的神经音乐生成。		音乐
Mubert	AI生成音乐。		音乐
MuseNet	一种能生成4分钟多乐器音乐作品的深度神经网络，可以融合从乡村到莫扎特到披头士等风格。		音乐
MusicGen	简单且可控的音乐生成。	arXiv	音乐
MusicLDM	使用节拍同步混合策略增强文本到音乐生成的新颖性。	arXiv	音乐
MusicLM	从文本生成音乐。	arXiv	音乐
Riffusion App	Riffusion是一个基于稳定扩散的实时音乐生成应用程序。		音乐
Sonauto	Sonauto是一个AI音乐编辑器，可以将提示、歌词或旋律转化为任何风格的完整歌曲。		音乐
SoundRaw	为创作者提供AI音乐生成器。		音乐
Soundry AI	生成AI工具，包括文本到声音和无限样本包。		音乐

歌声

[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]