AI 游戏开发工具(AI-GDT) 🎮
在这里,我们将跟踪最新的 AI 游戏开发工具,包括 LLM、代理(Agent)、代码、写作、图像、纹理、着色器、3D 模型、动画、视频、音频、音乐、歌声和分析。🔥
目录
项目列表
工具(AI LLM)
来源 | 描述 | 论文 | 引擎 | 类型 |
---|---|---|---|---|
AgentGPT | 🤖 在您的浏览器中组装、配置和部署自主AI代理。 | 工具 | ||
AICommand | Unity 编辑器与 ChatGPT 集成。 | Unity | 工具 | |
AIOS | 大模型代理操作系统。 | 工具 | ||
Assistant CLI | 使用 ChatGPT 服务的便捷命令行工具🔥 | 工具 | ||
Auto-GPT | 一种实验性的开源尝试,旨在使 GPT-4 完全自主。 | 工具 | ||
BabyAGI | 此 Python 脚本是一个 AI 驱动的任务管理系统示例。 | 工具 | ||
👶🤖🖥️ BabyAGI UI | BabyAGI UI 的设计是为了更容易在 web 应用程序中运行和开发 babyagi,如同 ChatGPT 一样。 | 工具 | ||
baichuan-7B | 百川科技开发的大规模 7B 预训练语言模型。 | 工具 | ||
Baichuan-13B | 百川智能科技开发的 13B 大型语言模型。 | 工具 | ||
Baichuan 2 | 百川智能科技开发的一系列大型语言模型。 | 工具 | ||
Bisheng | 笔胜是一个开源的大模型开发运维平台,用于下一代AI应用。 | 工具 | ||
Character-LLM | 一个用于角色扮演的可训练代理。 | arXiv | 工具 | |
ChatDev | 软件开发中用的通讯代理。 | arXiv | 工具 | |
ChatGPT-API-unity | 将 ChatGPT 聊天完成 API 绑定到 Unity 上的纯 C# 代码中。 | Unity | 工具 | |
ChatGPTForUnity | 用于 Unity 的 ChatGPT。 | Unity | 工具 | |
ChatRWKV | ChatRWKV 类似于 ChatGPT,但由 RWKV(100% RNN)语言模型驱动,并且是开源的。 | 工具 | ||
ChatYuan | 面向中英文对话的大型语言模型。 | 工具 | ||
Chinese-LLaMA-Alpaca-3 | 基于 Meta Llama 3 开发的中文Llama-3大型语言模型。 | 工具 | ||
Chrome-GPT | 一个控制您桌面上 Chrome 浏览器的 AutoGPT 代理。 | 工具 | ||
CogVLM | CogVLM,一个强大的开源视觉语言基础模型。 | arXiv | 工具 | |
CoreNet | 用于训练深度神经网络的库。 | 工具 | ||
DBRX | DBRX 是由 Databricks 训练的大型语言模型。 | 工具 | ||
DCLM | 用于语言模型的数据竞赛。 | arXiv | 工具 | |
DemoGPT | 使用 Llama 2 的力量自动生成 AI 应用程序。 | 工具 | ||
Design2Code | 自动化前端工程。 | 工具 | ||
Devika | Devika 是一个代理型 AI 软件工程师。 | 工具 | ||
Devon | 一个开源的配对编程助手。 | 工具 | ||
Dora | 一次性生成强大的网站。 | 工具 | ||
Flowise | 拖放 UI 构建您的自定义 LLM 流程使用 LangchainJS。 | 工具 | ||
Gemini | Gemini 从头开始为多模态而建——无缝地在文本、图像、视频、音频和代码之间进行推理。 | 工具 | ||
Gemma | Gemma 是一组轻量级、最先进的开源模型,基于创建 Google Gemini 模型的研究和技术。 | 工具 | ||
gemma.cpp | Google 的 Gemma 模型的轻量级、独立的 C++ 推理引擎。 | 工具 | ||
GLM-4 | GLM-4-9B 是由智谱 AI 推出的 GLM-4 系列最新一代预训练模型的开源版本。 | 工具 | ||
GPT4All | 一个训练在大量干净的助手数据(包括代码、故事和对话)上的聊天机器人。 | 工具 | ||
GPT-4o | GPT-4o(“o”代表“omni”)是实现更自然人机交互的一步——它接受任何文本、音频、图像和视频的组合输入,并生成任何文本、音频和图像的组合输出。 | 工具 | ||
GPTScript | 用自然语言开发大模型应用。 | 工具 | ||
Grok-1 | 我们的 3140 亿参数专家混合模型 Grok-1 的权重和架构。 | 工具 | ||
HuggingChat | 让社区最好的 AI 聊天模型人人可用。 | 工具 | ||
Hugging Face API Unity Integration | 此 Unity 包提供了 Hugging Face 推理 API 的易于使用的集成,允许运营商在其 Unity 项目中访问和使用 Hugging Face AI 模型。 | Unity | 工具 | |
ImageBind | ImageBind 一个嵌入空间绑定所有。 | arXiv | 工具 | |
Index-1.9B | 一个最先进的轻量级多语种大语言模型。 | 工具 | ||
InteractML-Unity | InteractML,一个用于 Unity3D 的可视化脚本框架。 | Unity | 工具 | |
InteractML-Unreal Engine | 将机器学习带入虚幻引擎。 | Unreal Engine | 工具 | |
InternLM | InternLM 已经开源了一个 70 亿参数基础模型,一个适应实际场景的聊天模型和训练系统。 | arXiv | 工具 | |
InternLM-XComposer | InternLM-XComposer2 是一个突破性的视觉语言大模型(VLLM),擅长自由形式的文本-图像组合与理解。 | arXiv | 工具 | |
Jan | 将AI带到您的桌面。 | 工具 | ||
Lamini | Lamini 让任何工程团队通过 RLHF 和在自己的数据上进行微调来超越通用的大规模语言模型。 | 工具 | ||
LaMini-LM | LaMini-LM 是从 ChatGPT 蒸馏并在大规模 2.58M 指令数据集上训练的小型高效语言模型集合。 | 工具 | ||
LangChain | LangChain 是一个用于开发大语言模型驱动的应用程序的框架。 | 工具 | ||
LangFlow | ⛓️ LangFlow 是一个 LangChain 的 UI,使用 react-flow 提供一种轻松实验和原型制作流的方法。 | 工具 | ||
LaVague | 使用大型动作模型框架自动化自动化流程。 | 工具 | ||
Lemur | 开源语言代理基础模型。 | 工具 | ||
Lepton AI | 一个简化AI服务构建的Python框架。 | 工具 | ||
Lit-LLaMA | 基于nanoGPT的LLaMA语言模型实现。支持闪存注意力、Int8和GPTQ 4位量化、LoRA和LLaMA-Adapter微调和预训练。 | 工具 | ||
llama2-webui | 在任何地方(Linux/Windows/Mac)使用gradio UI在GPU或CPU上本地运行Llama 2。 | 工具 | ||
Llama 3 | 官方的Meta Llama 3 GitHub站点。 | 工具 | ||
Llama 3.1 | Llama是一种对开发者、研究者和企业开放的大型语言模型(LLM),旨在构建、实验和负责任地扩展他们的生成AI创意。 | 工具 | ||
LLaSM | 大型语言和语音模型。 | 工具 | ||
LLM Answer Engine | 使用Next.js、Groq、Mixtral、Langchain、OpenAI、Brave和Serper构建一个受Perplexity启发的答案引擎。 | 工具 | ||
llm.c | 使用简单、原生的C/CUDA进行LLM训练。 | 工具 | ||
LLMUnity | 在Unity中创建具有LLM的角色! | Unity | 工具 | |
LLocalSearch | LLocalSearch是一种完全本地运行的使用LLM代理的搜索引擎。 | 工具 | ||
LogicGamesSolver | 一个使用AI、深度学习和计算机视觉解决逻辑游戏的Python工具。 | 工具 | ||
Large World Model (LWM) | Large World Model (LWM)是一种通用的大背景多模式自回归模型。 | arXiv | 工具 | |
Lumina-T2X | Lumina-T2X是一种统一的文本到各种模式生成框架。 | arXiv | 工具 | |
MetaGPT | 多代理框架 | 工具 | ||
MiniCPM-2B | 一种终端侧LLM,可超越Llama2-13B。 | 工具 | ||
MiniGPT-4 | 使用先进的大型语言模型增强视觉-语言理解。 | arXiv | 工具 | |
MiniGPT-5 | 通过生成Vokens插入视觉和语言生成任务。 | arXiv | 工具 | |
Mixtral 8x7B | 一种高质量的稀疏专家混合模型。 | arXiv | 工具 | |
Mistral 7B | 迄今为止最好的7B模型,使用Apache 2.0许可。 | 工具 | ||
Mistral Large | Mistral Large是一种新的前沿文本生成模型,具有顶级推理能力。 | 工具 | ||
MLC LLM | 使每个人都能够在自己的设备上开发、优化和部署AI模型。 | 工具 | ||
MobiLlama | 向准确且轻量化的完全透明GPT迈进。 | arXiv | 工具 | |
MoE-LLaVA | 大型视觉语言模型的专家混合。 | arXiv | 工具 | |
Moshi | Moshi是一种实验性的对话AI。 | 工具 | ||
MOSS | 来自复旦大学的开源工具增强对话语言模型。 | 工具 | ||
mPLUG-Owl🦉 | 模块化赋能大型语言模型以实现多模式。 | arXiv | 工具 | |
Nemotron-4 | 一种具有150亿参数的大型多语言模型,训练在8万亿文本tokens上。 | arXiv | 工具 | |
NExT-GPT | 任意到任意多模式大型语言模型。 | 工具 | ||
OLMo | 开放语言模型 | arXiv | 工具 | |
OmniLMM | 强大的多模式大型模型,具有高性能和高效部署。 | 工具 | ||
OneLLM | 一种框架,将所有模式与语言对齐。 | arXiv | 工具 | |
Open-Assistant | OpenAssistant是一种聊天助手,可以理解任务,能够与第三方系统交互,并动态检索信息以完成任务。 | 工具 | ||
OpenDevin | 自主AI软件工程师。 | 工具 | ||
Orion-14B | Orion-14B是一系列模型,包括一个14B基础LLM和一系列其他模型。 | arXiv | 工具 | |
Panda | 海外华人开源的大型语言模型,基于Llama-7B、-13B、-33B、-65B在中文领域进行持续预训练。 | 工具 | ||
Perplexica | 一个AI驱动的搜索引擎。 | 工具 | ||
Pi | 专用于个人协助和情感支持的AI聊天机器人。 | 工具 | ||
Qwen1.5 | Qwen1.5是Qwen的改进版。 | 工具 | ||
Qwen2 | Qwen2是由Qwen团队开发的大型语言模型系列,阿里云提供。 | 工具 | ||
Qwen-7B | 阿里云提出的Qwen-7B(通义千问-7B)聊天和预训练大型语言模型的官方版本库。 | 工具 | ||
RepoAgent | RepoAgent是一个由大型语言模型(LLMs)驱动的开源项目,旨在提供一种智能方式来记录项目。 | arXiv | 工具 | |
Sanity AI Engine | Unity游戏开发工具的Sanity AI引擎。 | Unity | 工具 | |
SearchGPT | 🌳 将ChatGPT连接到互联网 | 工具 | ||
ShareGPT4V | 通过更好的描述提升大型多模式模型。 | 工具 | ||
Skywork | Skywork系列模型在高质量的多语言(主要是中文和英文)和代码数据的3.2TB数据上进行预训练。 | 工具 | ||
StableLM | Stability AI语言模型。 | arXiv | 工具 | |
Stanford Alpaca | 一种遵循指令的LLaMA模型。 | 工具 | ||
Text generation web UI | 用于运行大型语言模型(如LLaMA、llama.cpp、GPT-J、OPT和GALACTICA)的gradio网络UI。 | 工具 | ||
TinyChatEngine | 设备上的LLM推理库。 | 工具 | ||
ToolBench | 一个用于训练、服务和评估大型语言模型的开放平台,专注于工具学习。 | 工具 | ||
Unity ChatGPT | Unity ChatGPT 实验. | Unity | 工具 | |
Unity OpenAI-API Integration | 将openai GPT-3语言模型和ChatGPT API集成到Unity项目中. | Unity | 工具 | |
Unreal Engine 5 Llama LoRA | 一个概念验证项目,展示了使用小型本地可训练LLM创建下一代文档工具的潜力. | Unreal Engine | 工具 | |
UnrealGPT | 一组由GPT3/4驱动的Unreal Engine 5编辑器实用程序小部件. | Unreal Engine | 工具 | |
Video-LLaVA | 通过对齐前的投影学习统一的视觉表示. | arXiv | 工具 | |
WebGPT | 使用WebGPU在浏览器上运行GPT模型. | 工具 | ||
Web3-GPT | 使用AI部署智能合约. | 工具 | ||
WordGPT | 🤖 将ChatGPT的强大功能带到Microsoft Word. | 工具 | ||
XAgent | 一个用于解决复杂任务的自主LLM代理. | 工具 | ||
Yi | 一系列从头开始由开发者训练的大型语言模型. | 工具 | ||
01 Project | 开源语言模型计算机. | 工具 |
游戏 (代理)
来源 | 描述 | 论文 | 游戏引擎 | 类型 |
---|---|---|---|---|
AgentBench | 一个全面的基准,用于评估大型语言模型(Large Language Models, LLMs)作为代理的表现。 | arXiv | 代理 | |
Agent Group Chat | 用于更好地引导集体涌现行为的交互式群聊模仿。 | arXiv | 代理 | |
AgentScope | 更容易地开始构建由LLM赋能的多代理应用程序。 | arXiv | 代理 | |
AgentSims | 一个开源沙箱,用于大型语言模型的评估。 | 代理 | ||
AI Town | AI Town是一个虚拟小镇,其中AI角色生活、聊天和社交。 | 代理 | ||
anime.gf | CharacterAI的本地和开源替代品。 | 游戏 | ||
Astrocade | 使用AI创建游戏。 | 游戏 | ||
Atomic Agents | Atomic Agents框架设计为模块化、可扩展且易于使用。 | 代理 | ||
AutoAgents | 自动代理生成框架。 | 代理 | ||
AutoGen | 启用下一代大型语言模型应用程序。 | arXiv | 代理 | |
behaviac | Behaviac是一个游戏AI开发框架。 | 框架 | ||
Biomes | Biomes是使用Web技术,例如Next.js、Typescript、React和WebAssembly,为Web而构建的开源沙盒MMORPG。 | 游戏 | ||
Buffer of Thoughts | 使用大型语言模型的思维增强推理。 | arXiv | 代理 | |
Byzer-Agent | 一个为所有人设计的简单、快速和分布式代理框架。 | 代理 | ||
Cat Town | 一个由C(h)atGPT驱动的猫咪模拟游戏。 | 代理 | ||
CharacterGLM | 使用大型语言模型自定义中文对话AI角色。 | arXiv | 代理 | |
ChatDev | 用于软件开发的通信代理。 | arXiv | 代理 | |
CogAgent | CogAgent是一个基于CogVLM改进的开源视觉语言模型。 | arXiv | 代理 | |
Cradle | 面向通用计算机控制。 | 代理 | ||
crewAI | 用于编排角色扮演、自主AI代理的框架。 | 代理 | ||
Dify | Dify是一个开源的LLM应用构建平台。 | 代理 | ||
Digital Life Project | 拥有社会智能的自主3D角色。 | arXiv | 代理 | |
everything-ai | 您完全熟练、由AI驱动的本地聊天助手🤖。 | 代理 | ||
fabric | fabric是一个开源框架,用于使用AI增强人类能力。 | 代理 | ||
FastGPT | FastGPT是一个基于LLM的知识平台。 | 代理 | ||
fastRAG | 高效的检索增强生成框架。 | 代理 | ||
GameAISDK | 基于图像的游戏AI自动化框架。 | 框架 | ||
Generative Agents | 人类行为的交互模拟。 | arXiv | 代理 | |
Genie | 生成式交互环境。 | 游戏 | ||
gigax | 运行时,LLM驱动的NPC。 | 游戏 | ||
HippoRAG | 神经生物学启发的大型语言模型的长期记忆。 | arXiv | 代理 | |
Interactive LLM Powered NPCs | 互动的LLM驱动的NPC,是一个开源项目,彻底改变您与任何游戏中NPC的互动! | 游戏 | ||
IoA | 一个开源框架,用于协作AI代理,使多样化、分布式的代理能够通过类似互联网的连接合作并解决复杂任务。 | 代理 | ||
KwaiAgents | 一个由大型语言模型(LLMs)驱动的通用信息搜索代理系统。 | arXiv | 代理 | |
LangChain | 从原型到生产,完成您的LLM应用。 | 代理 | ||
Langflow | Langflow是LangChain的用户界面,使用react-flow设计,提供了一种轻松实验和原型流的方式。 | 代理 | ||
LangGraph Studio | LangGraph Studio提供了一种新的方法来开发LLM应用程序,通过提供专用代理IDE,允许可视化、交互和调试复杂的代理应用程序。 | 代理 | ||
LARP | 用于开放世界游戏的语言代理角色扮演。 | arXiv | 代理 | |
LLama Agentic System | Llama堆栈API的代理组件。 | 代理 | ||
LlamaIndex | LlamaIndex是您的LLM应用的数据框架。 | 代理 | ||
MindSearch | 🔍一个基于LLM的多代理Web搜索引擎框架(类似于Perplexity.ai Pro和SearchGPT)。 | 代理 | ||
Mixture of Agents (MoA) | 代理混合增强大型语言模型的能力。 | arXiv | 代理 | |
MMRole | MMRole:开发和评估多模态角色扮演代理的综合框架。 | arXiv | 代理 | |
Moonlander.ai | 使用生成式AI开始构建3D游戏,而无需任何编码。 | 框架 | ||
MuG Diffusion | MuG Diffusion是基于稳定扩散(最强大的AIGC模型之一)的节奏游戏制谱AI,进行了大量修改以结合音频波。 | 游戏 | ||
OmAgent | 一个用于解决复杂任务的多模态代理框架。 | 代理 | ||
OpenAgents | 野外语言代理的开放平台。 | 代理 | ||
Opus | 一个将文本变成视频游戏的AI应用程序。 | 游戏 | ||
Pipecat | 用于语音和多模态对话AI的开源框架。 | 代理 | ||
Qwen-Agent | Qwen-Agent是一个框架,用于基于Qwen的指令跟随、工具使用、规划和记忆能力,开发LLM应用程序。 | 代理 | ||
Ragas | Ragas是一个框架,可以帮助您评估检索增强生成(RAG)管道。 | 代理 | ||
SIMA | 用于3D虚拟环境的通用AI代理。 | 代理 | ||
StoryGames.ai | 梦想家的AI用来制作游戏。 | 游戏 | ||
SWE-agent | 代理计算机接口使软件工程语言模型成为可能。 | arXiv | 代理 | |
TaskGen | 一个基于任务的框架,通过LLM代理产生StrictJSON输出。 | 代理 | ||
Translation Agent | 使用反思工作流程进行代理翻译。 | 代理 | ||
Video2Game | 从单个视频中创建实时、互动、逼真且兼容浏览器的环境。 | arXiv | 游戏 | |
V-IRL | 将虚拟智能落地于现实生活中。 | arXiv | 代理 | |
WebDesignAgent | 用于网页设计的代理。 | 代理 | ||
XAgent | 用于复杂任务解决的自主LLM代理。 | 代理 |
代码
来源 | 描述 | 论文 | 游戏引擎 | 类别 |
---|---|---|---|---|
AI Code Translator | 使用 AI 将代码从一种语言翻译到另一种语言。 | 代码 | ||
aiXcoder-7B | aiXcoder-7B 大型语言模型。 | 代码 | ||
bloop | bloop 是一个用 Rust 编写的快速代码搜索引擎。 | 代码 | ||
Chapyter | Jupyter 笔记本中的 ChatGPT 代码解释器。 | 代码 | ||
CodeGeeX | 一个开放的多语言代码生成模型。 | arXiv | 代码 | |
CodeGeeX2 | 一个更强大的多语言代码生成模型。 | 代码 | ||
CodeGeeX4 | CodeGeeX4: 开放的多语言代码生成模型。 | 代码 | ||
CodeGen | CodeGen 是一个用于程序综合的开源模型。基于 TPU-v4 训练,与 OpenAI Codex 竞争。 | arXiv | 代码 | |
CodeGen2 | CodeGen2 模型用于程序综合。 | arXiv | 代码 | |
Code Llama | Code Llama 是一个基于 Llama 2 的大型代码语言模型。 | 代码 | ||
CodeTF | 用于最先进代码大型语言模型的一站式 Transformer 库。 | 代码 | ||
CodeT5 | 用于代码理解和生成的开源代码大型语言模型。 | 代码 | ||
Cursor | 在一种新型编辑器中用 GPT-4 编写、编辑和聊天代码。 | 代码 | ||
OpenAI Codex | OpenAI Codex 是 GPT-3 的后代。 | 代码 | ||
PandasAI | Pandas AI 是一个 Python 库,将生成性人工智能功能集成到 Pandas 中,使数据框架具有会话能力。 | 代码 | ||
RobloxScripterAI | RobloxScripterAI 是一个为 Roblox 生成代码的 AI 工具。 | Roblox | 代码 | |
Scikit-LLM | 无缝集成强大的语言模型(如 ChatGPT)到 scikit-learn 中以增强文本分析任务。 | 代码 | ||
SoTaNa | 开源软件开发助手。 | arXiv | 代码 | |
Stable Code 3B | 边缘计算中的编码。 | 代码 | ||
StarCoder | 💫 StarCoder 是一个在源代码和自然语言文本上训练的语言模型。 | arXiv | 代码 | |
StarCoder 2 | StarCoder2 是一系列代码生成模型(3B, 7B, 15B),在 600 多种编程语言和一些自然语言文本(如 Wikipedia, Arxiv, 和 GitHub issues)上训练。 | arXiv | 代码 | |
UnityGen AI | UnityGen AI 是一个用于 Unity 的 AI 代码生成插件。 | Unity | 代码 |
写作
来源 | 描述 | 论文 | 游戏引擎 | 类别 |
---|---|---|---|---|
AI-Writer | AI 编写小说,生成奇幻和浪漫网络文章等。中文预训练生成模型。 | 写作 | ||
Notebook.ai | Notebook.ai 是一套为作家、游戏设计师和角色扮演者创建宏大宇宙及其一切内容的工具。 | 写作 | ||
Novel | Notion 风格 WYSIWYG 编辑器,具有 AI 驱动的自动补全功能。 | 写作 | ||
NovelAI | 由 AI 驱动,轻松构建独特的故事、激动人心的故事、诱人的浪漫故事,或只是随便玩玩。 | 写作 |
图像
来源 | 描述 | 论文 | 游戏引擎 | 类型 |
---|---|---|---|---|
AnyDoor | 零样本对象级图像定制。 | arXiv | 图像 | |
AnyText | 多语言视觉文本生成与编辑。 | arXiv | 图像 | |
AutoStudio | 在多轮交互图像生成中制作一致的主体。 | arXiv | 图像 | |
Blender-ControlNet | 在Blender中使用ControlNet。 | Blender | 图像 | |
BriVL | 连接视觉和语言模型。 | arXiv | 图像 | |
CatVTON | CatVTON:虚拟试穿所需的全部是扩散模型的串联。 | arXiv | 图像 | |
CLIPasso | 一种将物体图像转换为草图的方法,允许不同程度的抽象。 | arXiv | 图像 | |
ClipDrop | 秒级创建惊艳视觉效果。 | 图像 | ||
ComfyUI | 一个功能强大、模块化的稳定扩散图形用户界面,具有图表/节点界面。 | 图像 | ||
ConceptLab | 使用扩散先验约束进行创意生成。 | arXiv | 图像 | |
ControlNet | ControlNet是通过添加额外条件来控制扩散模型的神经网络结构。 | arXiv | 图像 | |
DALL·E 2 | DALL·E 2是一个可以根据自然语言描述创建逼真图像和艺术作品的AI系统。 | 图像 | ||
Dashtoon Studio | Dashtoon Studio是一个由AI供能的漫画创作平台。 | 漫画 | ||
DeepAI | DeepAI提供一套利用AI增强创意的工具。 | 图像 | ||
DeepFloyd IF | IF由StabilityAI的DeepFloyd实验室开发。 | 图像 | ||
Depth Anything V2 | Depth Anything V2 | arXiv | 图像 | |
Depth map library and poser | 与Automatic1111/stable-diffusion-webui的Control Net扩展一起使用的深度图库。 | 图像 | ||
Diffuse to Choose | 丰富潜在扩散模型中的图像缝合条件,为虚拟全试提供方案。 | arXiv | 图像 | |
Disco Diffusion | 用于生成AI艺术和动画的工具组合,由各种笔记本电脑、模型和技巧组成的集成系统。 | 图像 | ||
DragGAN | 生成图像中的基于点的交互式操控。 | arXiv | 图像 | |
Draw Things | 口袋中的AI辅助图像生成。 | 图像 | ||
DWPose | 通过两阶段蒸馏进行有效的全身姿态估计。 | arXiv | 图像 | |
EasyPhoto | 你的智能AI照片生成器。 | 图像 | ||
Flux | 此存储库包含使用我们的Flux潜在校正流变换器进行文本图像和图像图像生成的最低推理代码。 | 图像 | ||
Follow-Your-Click | 通过短提示进行开放域区域图像动画。 | arXiv | 图像 | |
Fooocus | 专注于提示和生成。 | 图像 | ||
GIFfusion | 使用稳定扩散创建GIF和视频。 | 图像 | ||
Grounded-Segment-Anything | 自动检测、分割和生成图像、文本和音频输入中的所有内容。 | arXiv | 图像 | |
Hua | Hua是一个使用稳定扩散(及其他)的AI图像编辑器。 | 图像 | ||
Hunyuan-DiT | 具有细粒度中文理解能力的多分辨率强大扩散变压器。 | arXiv | 图像 | |
IC-Light | IC-Light是一个操控图像光照项目。 | 图像 | ||
Ideogram | 帮助人们变得更有创造力。 | 图像 | ||
Imagen | Imagen是一个从输入文本创建写实图像的AI系统。 | 图像 | ||
img2img-turbo | 一步图像到图像转换,使用SD-Turbo。 | 图像 | ||
Img2Prompt | 从稳定扩散生成的图像中获取提示。 | 图像 | ||
InstantID | 零样本身份保持生成,秒级完成。 | arXiv | 图像 | |
InternLM-XComposer2 | InternLM-XComposer2是一个突破性的视觉语言大模型(VLLM),在自由格式文本图像合成和理解方面表现出色。 | arXiv | 图像 | |
KOALA | 在内存高效和快速图像合成的扩散模型知识蒸馏中,自注意力重要。 | 图像 | ||
Kolors | Kolors:有效的写实文本到图像合成扩散模型训练方法。 | 图像 | ||
KREA | 使用令人愉悦的AI设计工具生成图像和视频。 | 图像 | ||
LaVi-Bridge | 连接不同语言模型和生成视觉模型进行文本到图像生成。 | arXiv | 图像 | |
LayerDiffusion | 使用潜在透明度进行透明图像层扩散。 | arXiv | 图像 | |
Lexica | 一个稳定扩散提示搜索引擎。 | 图像 | ||
LlamaGen | 自回归模型击败扩散:Llama用于可扩展图像生成。 | arXiv | 图像 | |
MetaShoot | MetaShoot是一个照片棚的数字双胞胎,作为虚幻引擎的插件开发,给予任何创作者以最简单和最快的方式制作高度逼真渲染的能力。 | Unreal Engine | 图像 | |
Midjourney | Midjourney是一个独立的研究实验室,探索新思维媒介并扩展人类的想象力。 | 图像 | ||
MIGC | MIGC:多实例生成控制器用于文本到图像合成。 | arXiv | 图像 | |
MimicBrush | 通过参考模仿进行零样本图像编辑。 | arXiv | 图像 | |
Omost | Omost是一个将LLM编码能力转换为图像生成(更准确地说是图像合成)能力的项目。 | 图像 | ||
Openpose Editor | AUTOMATIC1111's stable-diffusion-webui的Openpose编辑器。 | 图像 | ||
Outfit Anyone | 超高质量的虚拟试穿,适用于任何服装和任何人。 | 图片 | ||
PaintsUndo | PaintsUndo: 数字绘画行为的基本模型。 | 图片 | ||
PhotoMaker | 通过堆叠ID嵌入定制逼真的人类照片。 | arXiv | 图片 | |
Photoroom | AI背景生成器。 | 图片 | ||
Plask | 云端AI图像生成。 | 图片 | ||
Prompt.Art | 生成器中心。 | 图片 | ||
PuLID | 通过对比对齐实现纯净和闪电般的ID定制。 | arXiv | 图片 | |
Rich-Text-to-Image | 使用丰富文本的表达性文本到图像生成。 | arXiv | 图片 | |
RPG-DiffusionMaster | 掌握文本到图像扩散:重生成、规划和通过多模态LLM进行生成。 | 图片 | ||
SEED-Story | SEED-Story: 使用大型语言模型生成多模态长篇故事。 | arXiv | 图片 | |
Segment Anything | Segment Anything Model (SAM): 来自Meta AI的新AI模型,可以在任何图像中通过单击“剪切”任何对象。 | arXiv | 图片 | |
Segment Anything Model 2 (SAM 2) | SAM 2: 在图像和视频中分割任何事物。 | arXiv | 图片 | |
sd-webui-controlnet | ControlNet的WebUI扩展插件。 | 图片 | ||
SDXL-Lightning | 渐进式对抗扩散蒸馏。 | arXiv | 图片 | |
SDXS | 具有图像条件的实时一步潜在扩散模型。 | 图片 | ||
Stable.art | 以Automatic1111为后端的Stable Diffusion的Photoshop插件(本地或使用Google Colab)。 | 图片 | ||
Stable Cascade | Stable Cascade由三个模型组成:Stage A、Stage B和Stage C,代表生成图像的级联过程,因此命名为“Stable Cascade”。 | 图片 | ||
Stable Diffusion | 潜在的文本到图像扩散模型。 | 图片 | ||
stable-diffusion.cpp | 纯C/C++的Stable Diffusion。 | 图片 | ||
Stable Diffusion web UI | 基于Gradio库的Stable Diffusion浏览器界面。 | 图片 | ||
Stable Diffusion web UI | 基于Web的Stable Diffusion用户界面。 | 图片 | ||
Stable Diffusion WebUI Chinese | 中文版Stable Diffusion WebUI。 | 图片 | ||
Stable Diffusion XL | 从文本生成图像。 | arXiv | 图片 | |
Stable Diffusion XL Turbo | 实时文本到图像生成。 | 图片 | ||
Stable Doodle | Stable Doodle是一款从草图到图像的工具,可以将简单的绘画转化为动态图像。 | 图片 | ||
StableStudio | 由Stability AI开发的StableStudio。 | 图片 | ||
StreamDiffusion | 实时互动生成的流程级解决方案。 | 图片 | ||
StyleDrop | 任何风格的文本到图像生成。 | arXiv | 图片 | |
SyncDreamer | 从单视图图像生成多视图一致的图像。 | arXiv | 图片 | |
UltraEdit | UltraEdit: 基于指令的大规模细粒度图像编辑。 | arXiv | 图片 | |
UltraPixel | UltraPixel: 将超高分辨率图像合成推向新高峰。 | arXiv | 图片 | |
Unity ML Stable Diffusion | Unity上的核心ML Stable Diffusion。 | Unity | 图片 | |
Vispunk Visions | 文本到图像生成平台。 | 图片 |
纹理
来源 | 描述 | 论文 | 游戏引擎 | 类型 |
---|---|---|---|---|
CRM | 使用卷积重建模型将单张图像转化为3D纹理网格。 | arXiv | 纹理 | |
DreamMat | 利用几何和光照感知扩散模型生成高质量的PBR材质。 | arXiv | 纹理 | |
DreamSpace | 使用文本驱动的全景纹理传播,梦想到你的房间空间。 | 纹理 | ||
Dream Textures | 集成在Blender中的稳定扩散。使用简单的文本提示制作纹理、概念艺术、背景资产等。 | Blender | 纹理 | |
InstructHumans | 利用指令编辑动画3D人类纹理。 | arXiv | 纹理 | |
InteX | 通过统一的深度感知修复进行交互式文本到纹理合成。 | arXiv | 纹理 | |
MaterialSeg3D | MaterialSeg3D: 从2D先验中分割3D资产的密集材质。 | arXiv | 纹理 | |
MeshAnything | MaterialSeg3D: 从2D先验中分割3D资产的密集材质。 | arXiv | 网格 | |
Neuralangelo | 高保真神经表面重建。 | arXiv | 纹理 | |
Paint-it | 通过深度卷积纹理图优化和物理基础渲染进行文本到纹理合成。 | 纹理 | ||
Polycam | 只需输入文字即可创建自己的3D纹理。 | 纹理 | ||
TexFusion | 使用文本引导的图像扩散模型合成3D纹理。 | arXiv | 纹理 | |
Text2Tex | 通过扩散模型进行文本驱动的纹理合成。 | arXiv | 纹理 | |
Texture Lab | AI生成的纹理。你可以使用文本提示生成自己的纹理。 | 纹理 | ||
With Poly | 使用Poly创建纹理。使用AI在免费的在线编辑器中生成3D材质,或搜索我们不断增长的社区库。 | 纹理 | ||
X-Mesh | X-Mesh: 通过动态文本指导实现快速准确的文本驱动3D风格化。 | arXiv | 纹理 |
着色器
来源 | 描述 | 论文 | 游戏引擎 | 类型 |
---|---|---|---|---|
AI Shader | 基于ChatGPT的Unity着色器生成器。 | Unity | 着色器 |
3D模型
来源 | 描述 | 论文 | 游戏引擎 | 类型 |
---|---|---|---|---|
Anything-3D | Segment-Anything + 3D。让任何东西提升到3D。 | arXiv | 模型 | |
Any2Point | Any2Point:使任何模态的大型模型能够高效理解3D。 | arXiv | 3D | |
BlenderGPT | 使用英语命令通过OpenAI的GPT-4控制Blender。 | Blender | 模型 | |
Blender-GPT | 集成GPT3/4和Whisper的全能Blender助手。 | Blender | 模型 | |
Blockade Labs | 使用Skybox Lab通过文本提示生成令人难以置信的360°天空盒体验的终极AI解决方案,数字炼金术变为现实。 | 模型 | ||
CF-3DGS | COLMAP-Free 3D Gaussian Splatting。 | arXiv | 3D | |
CharacterGen | CharacterGen:通过多视角姿态规范化从单个图像中高效生成3D角色。 | arXiv | 3D | |
chatGPT-maya | 一个简单的Maya工具,利用开放AI根据描述性指令执行基本任务。 | Maya | 模型 | |
CityDreamer | 无限3D城市的组合生成模型。 | arXiv | 3D | |
CSM | 从图像和视频生成3D世界。 | 3D | ||
Dash | 您在Unreal Engine中建立世界的副驾驶。 | Unreal Engine | 3D | |
DreamCatalyst | DreamCatalyst:通过控制可编辑性和身份保护进行快速和高质量的3D编辑。 | arXiv | 3D | |
DreamGaussian4D | 生成式4D高斯散点。 | arXiv | 4D | |
DUSt3R | 简化几何3D视觉。 | arXiv | 3D | |
GALA3D | GALA3D:通过布局引导的生成高斯散点实现文本到复杂3D场景的生成。 | arXiv | 3D | |
GaussCtrl | GaussCtrl:多视角一致的文本驱动3D高斯散点编辑。 | arXiv | 3D | |
GaussianCube | 适用于3D生成建模的结构化和明确的辐射表示。 | arXiv | 3D | |
GaussianDreamer | 通过点云先验实现从文本到3D高斯点云的快速生成。 | arXiv | 3D | |
GenieLabs | 用AI-UGC增强您的游戏。 | 3D | ||
HiFA | 高保真文本到3D,具有先进的扩散指导。 | 模型 | ||
HoloDreamer | HoloDreamer:从文本描述生成整体3D全景世界。 | arXiv | 3D | |
Infinigen | 使用程序生成无限的逼真世界。 | arXiv | 3D | |
Instruct-NeRF2NeRF | 通过指令编辑3D场景。 | arXiv | 模型 | |
Interactive3D | 通过交互3D生成创建您想要的内容。 | arXiv | 3D | |
Isotropic3D | 基于单个CLIP嵌入的图像到3D生成。 | 3D | ||
LATTE3D | 大规模委托文本到增强3D的合成。 | arXiv | 3D | |
LION | 用于3D形状生成的潜在点扩散模型。 | arXiv | 模型 | |
Luma AI | 捕捉逼真的3D。无与伦比的逼真度、反射和细节。VFX的未来即现在,属于每个人! | 模型 | ||
lumine AI | AI赋能的创造力。 | 3D | ||
Make-It-3D | 从单个图像生成高保真3D,使用扩散先验。 | arXiv | 模型 | |
Meshy | 使用AI创建令人惊叹的3D游戏资产。 | 3D | ||
Mootion | 神奇的3D AI动画制作器。 | 3D | ||
MVDream | 多视角扩散用于3D生成。 | arXiv | 3D | |
NVIDIA Instant NeRF | 快速生成神经图形原语:闪电般快速的NeRF等。 | 模型 | ||
One-2-3-45 | 在45秒内从任意单个图像生成3D网格,无需每个形状的优化。 | arXiv | 模型 | |
Paint3D | 使用无光照纹理扩散模型绘制任何3D内容。 | arXiv | 3D | |
PAniC-3D | 从动漫角色肖像的单视图进行风格化3D重建。 | arXiv | 模型 | |
Point·E | 点云扩散用于3D模型合成。 | 模型 | ||
ProlificDreamer | 使用变分评分蒸馏进行高保真和多样化的文本到3D生成。 | arXiv | 模型 | |
SF3D | SF3D:具有UV解包和光照解耦的稳定快速3D网格重建。 | arXiv | 3D | |
Shap-E | 基于文本或图像生成3D对象。 | arXiv | 模型 | |
Sloyd | 3D建模从未如此简单。 | 模型 | ||
Spline AI | AI的力量来到第三维度。使用提示生成对象、动画和纹理。 | 模型 | ||
Stable Dreamfusion | 文本到3D模型Dreamfusion的pytorch实现,基于文本到2D模型的稳定扩散。 | 模型 | ||
SV3D | 使用潜在视频扩散技术从单个图像生成新颖的多视角合成和3D生成。 | arXiv | 3D | |
Tafi | AI文本转3D角色引擎。 | 模型 | ||
3D-GPT | 使用大型语言模型进行程序化3D建模。 | arXiv | 3D | |
3D-LLM | 将3D世界注入大型语言模型中。 | arXiv | 3D | |
3Dpresso | 从视频中提取对象的3D模型。 | 模型 | ||
3DTopia | 5分钟内生成3D模型。 | arXiv | 3D | |
threestudio | 一个统一的3D内容生成框架。 | 模型 | ||
TripoSR | 从单张图像快速前馈3D重建的开源模型。 | arXiv | 模型 | |
Unique3D | 从单张图像生成高质量且高效的3D网格。 | arXiv | 3D | |
UnityGaussianSplatting | Unity中的玩具高斯喷射可视化。 | Unity | 3D | |
ViVid-1-to-3 | 使用视频扩散模型的新视角合成。 | arXiv | 3D | |
Voxcraft | 使用AI打造可使用的3D模型。 | 3D | ||
Wonder3D | 使用跨域扩散从单张图像生成3D模型。 | arXiv | 3D | |
Zero-1-to-3 | 零样本从单张图像生成3D对象。 | arXiv | 模型 |
头像
来源 | 描述 | 论文 | 游戏引擎 | 类型 |
---|---|---|---|---|
AniPortrait | 音频驱动的真实感头像动画合成。 | arXiv | 头像 | |
CALM | 可操控虚拟角色的条件对抗潜在模型。 | arXiv | 头像 | |
ChatAvatar | 在文本引导下逐步生成可动画的 3D 面孔。 | 头像 | ||
ChatdollKit | ChatdollKit使您能够将 3D 模型转换为聊天机器人。 | Unity | 头像 | |
DreamTalk | 当表情丰富的谈话头生成遇到扩散概率模型。 | arXiv | 头像 | |
Duix | Duix - 基于硅的数字人 SDK 🌐🤖 | 头像 | ||
EchoMimic | EchoMimic: 通过可编辑的标志条件实现的逼真的音频驱动肖像动画。 | arXiv | 头像 | |
EMOPortraits | 加强情感的多模态单次头像。 | 头像 | ||
E3 Gen | 高效、富有表现力且可编辑的头像生成。 | arXiv | 头像 | |
GeneAvatar | 从单图像生成的通用表情感知体积头部头像编辑。 | arXiv | 头像 | |
GeneFace++ | 通用且稳定的实时3D谈话面孔生成。 | 头像 | ||
Hallo | 用于肖像图像动画的分层音频驱动视觉合成。 | arXiv | 头像 | |
HeadSculpt | 用文本制作3D头部头像。 | arXiv | 头像 | |
IntrinsicAvatar | IntrinsicAvatar: 通过显式光线追踪从单眼视频物理基础逆向渲染动态人类。 | arXiv | 头像 | |
Linly-Talker | 数字头像对话系统。 | 头像 | ||
LivePortrait | LivePortrait: 通过拼接和重新定向控制实现高效肖像动画。 | arXiv | 头像 | |
MotionGPT | 将人体运动视作外语,使用大型语言模型的统一运动语言生成模型。 | arXiv | 头像 | |
MusePose | MusePose: 一个用于虚拟人类生成的姿态驱动图像到视频框架。 | 头像 | ||
MuseTalk | 通过潜在空间修复实现的实时高质量唇部同步。 | 头像 | ||
MuseV | 通过视觉条件并行降噪实现无限长度高保真虚拟人类视频生成。 | 头像 | ||
Portrait4D | 使用合成数据学习单次4D头部头像合成。 | arXiv | 头像 | |
Ready Player Me | 在几天内将可定制的头像集成到您的游戏或应用中。 | 头像 | ||
RodinHD | RodinHD: 使用扩散模型生成高保真3D头像。 | arXiv | 头像 | |
StyleAvatar3D | 利用图像-文本扩散模型生成高保真3D头像。 | arXiv | 头像 | |
Text2Control3D | 使用几何引导的图像到文本扩散模型生成可控的3D头像。 | arXiv | 头像 | |
Topo4D | 拓扑保持高保真 4D 头部捕捉的高斯喷洒。 | arXiv | 头像 | |
UnityAIWithChatGPT | 基于 Unity, 实现 ChatGPT+UnityChan 语音互动显示。 | Unity | 头像 | |
Vid2Avatar | 通过自监督场景分解从野外视频重建3D头像。 | arXiv | 头像 | |
VLOGGER | 用于化身合成的多模态扩散。 | 头像 | ||
Wild2Avatar | 渲染遮挡背后的人类。 | arXiv | 头像 |
动画
<SOURCE_TEXT>
来源 | 描述 | 论文 | 游戏引擎 | 类型 |
---|---|---|---|---|
Animate Anyone | 一致且可控的图像到视频的角色动画合成。 | arXiv | 动画 | |
AnimateAnything | 基于运动指导的精细开放域图像动画。 | arXiv | 动画 | |
AnimateDiff | 无需特定调优,动画化个性化文本到图像扩散模型。 | arXiv | 动画 | |
AnimateLCM | 通过四个步骤加速视频生成! | arXiv | 动画 | |
AnimateZero | 视频扩散模型是零样本图像动画生成器。 | arXiv | 动画 | |
AnimationGPT | 一种用于生成游戏战斗动作素材的 AIGC 工具。 | 动画 | ||
Deforum | Deforum 利用稳定扩散技术生成不断演变的 AI 视觉效果。 | 动画 | ||
DreaMoving | 基于扩散模型的人类视频生成框架。 | arXiv | 动画 | |
FaceFusion | 下一代换脸和增强工具。 | 动画 | ||
FreeInit | 在视频扩散模型中弥合初始化差距。 | arXiv | 动画 | |
GeneFace | 广义和高保真音频驱动的 3D 说话人脸合成。 | arXiv | 动画 | |
ID-Animator | 零样本身份保留的人类视频生成。 | arXiv | 动画 | |
MagicAnimate | 使用扩散模型生成时间一致性的人类图像动画。 | arXiv | 动画 | |
NUWA | DragNUWA 是一个开放域基于扩散的视频生成模型,可以将文本、图像和轨迹控制作为输入,实现可控视频生成。 | arXiv | 动画 | |
NUWA-Infinity | NUWA-Infinity 是一个多模态生成模型,可以根据给定的文本、图像或视频输入生成高质量图像和视频。 | 动画 | ||
NUWA-XL | 一种用于极长视频生成的扩散建筑上的新型架构。 | 动画 | ||
Omni Animation | AI 生成高保真动画。 | 动画 | ||
PIA | 通过文本到图像模型中的即插即用模块实现个性化图像动画。 | arXiv | 动画 | |
SadTalker | 学习逼真的 3D 运动系数以实现样式化音频驱动的单图像说话人像动画。 | arXiv | 动画 | |
SadTalker-Video-Lip-Sync | 该项目基于 SadTalkers Wav2lip 实现视频唇形合成。 | 动画 | ||
Stable Animation | 面向开发者的强大文本到动画工具。 | 动画 | ||
TaleCrafter | 一个支持多个角色的互动故事可视化工具。 | arXiv | 动画 | |
ToonCrafter | ToonCrafter:生成卡通插值。 | arXiv | 动画 | |
Wav2Lip | 准确地在自然环境中实现视频唇形同步。 | arXiv | 动画 | |
Wonder Studio | 一个自动为 CG 角色在实景场景中进行动画制作、照明和合成的 AI 工具。 | 动画 |
视觉
</SOURCE_TEXT>
来源 | 描述 | 论文 | 游戏引擎 | 类型 |
---|---|---|---|---|
Cambrian-1 | Cambrian-1:一个完全开放的、以视觉为中心的多模态大型语言模型的探索。 | arXiv | 多模态 LLM | |
CogVLM2 | 基于 Llama3-8B 的 GPT4V 级开源多模态模型。 | 视觉 | ||
CoTracker | 更好的一起跟踪。 | arXiv | 视觉 | |
EVF-SAM | EVF-SAM:用于文本提示的分割模型的早期视觉-语言融合。 | arXiv | 视觉 | |
FaceHi | 更好的一起跟踪。 | 视觉 | ||
InternLM-XComposer2 | InternLM-XComposer2 是一个突破性的视觉-语言大模型(VLLM),在自由形式的文本-图像组合和理解中表现优异。 | arXiv | 视觉 | |
Kangaroo | Kangaroo:支持长时间视频输入的强大视频-语言模型。 | 视觉 | ||
LGVI | 通过多模态大型语言模型实现语言驱动的视频修复。 | 视觉 | ||
LLaVA++ | 使用 LLaMA-3 和 Phi-3 扩展视觉能力。 | 视觉 | ||
LongVA | 从语言到视觉的长上下文转移。 | arXiv | 视觉 | |
MaskViT | 用于视频预测的掩码视觉预训练。 | arXiv | 视觉 | |
MiniCPM-Llama3-V 2.5 | 您手机上的 GPT-4V 级 MLLM。 | 视觉 | ||
MoE-LLaVA | 大规模视觉-语言模型的专家混合模型。 | arXiv | 视觉 | |
MotionLLM | 从人体动作和视频中理解人类行为。 | arXiv | 视觉 | |
PLLaVA | 从图像到视频的无参数扩展,用于视频密集标题生成。 | arXiv | 视觉 | |
Qwen-VL | 一个多功能的视觉-语言模型,用于理解、本地化、文本阅读等。 | arXiv | 视觉 | |
ShareGPT4V | 通过更好的标题改进大型多模态模型。 | arXiv | 视觉 | |
SOLO | SOLO:用于可扩展视觉-语言建模的单一 Transformer。 | arXiv | 视觉 | |
Video-CCAM | Video-CCAM:通过因果交叉注意力掩码推进视频-语言理解。 | 视觉 | ||
Video-LLaVA | 在投影之前通过对齐学习统一视觉表示。 | arXiv | 视觉 | |
VideoLLaMA 2 | 在视频 LLMs 中推进时空建模和音频理解。 | arXiv | 视觉 | |
Video-MME | 第一个关于视频分析的多模态 LLMs 全面评估基准。 | arXiv | 视觉 | |
Vitron | 用于理解、生成、分割、编辑的统一像素级视觉 LLM。 | 视觉 | ||
VILA | VILA:关于视觉语言模型的预训练。 | arXiv | 视觉 |
视频
来源 | 描述 | 论文 | 游戏引擎 | 类型 |
---|---|---|---|---|
360DVD | 基于360度视频扩散模型的可控全景视频生成。 | arXiv | 视频 | |
Animate-A-Story | 通过增强检索的视频生成来讲故事。 | arXiv | 视频 | |
Anything in Any Scene | 真实感视频对象插入。 | 视频 | ||
ART•V | 用扩散模型进行自回归文本到视频生成。 | arXiv | 视频 | |
Assistive | 生成性视频平台,让你的创意变成现实。 | 视频 | ||
AtomoVideo | 高保真图像到视频生成。 | arXiv | 视频 | |
BackgroundRemover | 背景移除器,可使用AI通过简单的命令行界面从图像和视频中移除背景,且免费开源。 | 视频 | ||
Boximator | 为视频合成生成丰富且可控的动作。 | arXiv | 视频 | |
CoDeF | 用于时间一致性视频处理的内容变形场。 | arXiv | 视频 | |
CogVideo | 根据文本描述生成视频。 | 视频 | ||
CogVideoX | CogVideoX 是视频生成模型的开源版本,同源于清影。 | 视频 | ||
CogVLM | CogVLM 是一个强大的开源视觉语言模型 (VLM)。 | 视觉 | ||
CoNR | 从手绘动漫角色表 (ACS) 中生成生动的舞蹈视频。 | arXiv | 视频 | |
Decohere | 创造无法拍摄的内容。 | 视频 | ||
Descript | Descript 是一种简单、强大且有趣的编辑方式。 | 视频 | ||
Diffutoon | 通过扩散模型进行高分辨率可编辑卡通渲染。 | arXiv | 视频 | |
dolphin | 基于大语言模型的一般视频互动平台。 | 视频 | ||
DomoAI | 借助DomoAI放大你的创造力。 | 视频 | ||
DynamiCrafter | 利用视频扩散先验动画开放领域图像。 | arXiv | 视频 | |
EDGE | 我们介绍EDGE,一种强大的可编辑舞蹈生成方法,能够创建逼真且物理上合理的舞蹈,并且能够忠实于任意输入音乐。 | arXiv | 视频 | |
EMO | Emote Portrait Alive - 通过Audio2Video扩散模型在弱条件下生成表情丰富的肖像视频。 | arXiv | 视频 | |
Emu Video | 通过显式图像条件化对文本到视频生成进行因子化。 | 视频 | ||
Etna | Etna 可以基于简短的文本描述生成相应的视频内容。 | 视频 | ||
Fairy | 快速并行化的指令导向视频到视频合成。 | 视频 | ||
Follow Your Pose | 使用无姿势视频进行姿势引导的文本到视频生成。 | arXiv | 视频 | |
FullJourney | 完整的AI创作工具套件。 | 视频 | ||
Gen-2 | 多模态的AI系统,可以使用文本、图像或视频片段生成新视频。 | 视频 | ||
Generative Dynamics | 生成性图像动态。 | 视频 | ||
Genie | 生成性互动环境 。 | arXiv | 视频 | |
Genmo | 用AI魔法般地制作视频。 | 视频 | ||
GenTron | 用扩散变压器进行图像和视频生成。 | 视频 | ||
HiGen | 文本到视频生成的层次化时空解耦。 | 视频 | ||
Hotshot-XL | Hotshot-XL 是一个AI文本到GIF模型,训练目的是与稳定扩散XL协同工作。 | 视频 | ||
Imagen Video | 给定文本提示,Imagen Video 使用基础视频生成模型和一系列交替的空间和时间视频超分辨率模型生成高清视频。 | 视频 | ||
InstructVideo | 使用人为反馈指导视频扩散模型。 | arXiv | 视频 | |
I2VGen-XL | 通过级联扩散模型进行高质量图像到视频合成。 | arXiv | 视频 | |
LaVie | 使用级联潜在扩散模型进行高质量视频生成。 | arXiv | 视频 | |
LTX Studio | LTX Studio 是一个为创作者、营销人员、电影制片人和工作室提供的全面的AI驱动电影制作平台。 | 视频 | ||
Lumiere | 用于视频生成的时空扩散模型。 | arXiv | 视频 | |
LVDM | 用于高保真长视频生成的潜在视频扩散模型。 | arXiv | 视频 | |
MagicVideo | 用潜在扩散模型高效视频生成。 | arXiv | 视频 | |
MagicVideo-V2 | 多阶段高美学视频生成。 | arXiv | 视频 | |
Magic Hour | 简化了的创作者AI视频制作。 | 视频 | ||
MAGVIT-v2 | 分词器是视觉生成的关键。 | 视频 | ||
MAGVIT | 蒙版生成视频变压器。 | 视频 | ||
Make-A-Video | Make-A-Video 是最先进的AI系统,可以从文本生成视频。 | arXiv | 视频 | |
Make Pixels Dance | 高动态视频生成。 | arXiv | 视频 | |
Make-Your-Video | 使用文本和结构指导进行定制视频生成。 | arXiv | 视频 | |
MicroCinema | 用于文本到视频生成的分而治之方法。 | arXiv | 视频 | |
Mini-Gemini | 挖掘多模态视觉语言模型的潜力。 | 视觉 | ||
MobileVidFactory | 基于扩散的社交媒体视频自动生成,应用于移动设备的文本。 | 视频 | ||
MOFA-Video | 基于固定图片到视频扩散模型中的生成运动场适应来控制图像动画。 | arXiv | 视频 | |
MoneyPrinterTurbo | 使用大模型一键生成短视频。 | 视频 | ||
Moonvalley | Moonvalley 是一个开创性的文本到视频生成 AI 模型。 | 视频 | ||
Mora | 类似于 Sora 的通用视频生成器。 | arXiv | 视频 | |
Morph Studio | 用我们的文本到视频 AI 魔法,通过提示展现你的创造力。 | 视频 | ||
MotionCtrl | 一个统一且灵活的视频生成运动控制器。 | arXiv | 视频 | |
MotionDirector | 文本到视频扩散模型的运动自定义。 | arXiv | 视频 | |
Motionshop | 在视频中用 3D 角色替换人物的应用程序。 | 视频 | ||
Mov2mov | Automatic1111/stable-diffusion-webui 的 Mov2mov 插件。 | 视频 | ||
MovieFactory | 使用大生成模型从文本自动创建电影。 | arXiv | 视频 | |
Neural Frames | 探索视觉世界的合成器。 | 视频 | ||
NeverEnds | 创建你的世界。 | 视频 | ||
Open-Sora | 为所有人提供高效视频制作的普及化。 | 视频 | ||
Open-Sora | Open-Sora 计划。 | 视频 | ||
Phenaki | 一个从文本生成视频的模型,可以随时间变化提示,视频时间可长达几分钟。 | arXiv | 视频 | |
Pika Labs | Pika Labs 正在用 AI 革新视频制作体验。 | 视频 | ||
Pixeling | Pixeling 让我们的客户能够创建高度精确的超现实且极具控制力的视觉内容,包括图像、视频和 3D 模型。 | 视频 | ||
PixVerse | 使用 AI 创建令人惊叹的视频。 | 视频 | ||
Pollinations | 创作变得简单、快速、有趣。 | 视频 | ||
Reuse and Diffuse | 文本到视频生成的迭代去噪。 | arXiv | 视频 | |
ShortGPT | 一个用于自动化短视频内容创作的实验性 AI 框架。 | 视频 | ||
Show-1 | 将像素和潜在扩散模型结合用于文本到视频生成。 | arXiv | 视频 | |
Snap Video | 用于文本到视频合成的缩放时空变压器。 | arXiv | 视频 | |
Sora | 从文本生成视频。 | 视频 | ||
SoraWebui | SoraWebui 是一个开源的 Sora 网络客户端,用户可以轻松使用 OpenAI 的 Sora 模型从文本创建视频。 | 视频 | ||
StableVideo | 基于文本驱动的稳定扩散视频编辑。 | 视频 | ||
Stable Video Diffusion | 稳定视频扩散(SVD)图像到视频。 | 视频 | ||
StoryDiffusion | 用于长范围图像和视频生成的一致自注意力。 | arXiv | 视频 | |
StreamingT2V | 从文本生成一致、动态和可扩展的长视频。 | arXiv | 视频 | |
StyleCrafter | 使用风格适配器增强风格化的文本到视频生成。 | arXiv | 视频 | |
TATS | 使用时间不可知 VQGAN 和时间敏感变压器生成长视频。 | 视频 | ||
Text2Video-Zero | 文本到图像扩散模型是零样本视频生成器。 | arXiv | 视频 | |
TF-T2V | 使用无文本视频扩展文本到视频生成的配方。 | arXiv | 视频 | |
Tora | Tora: 基于轨迹的扩散变压器视频生成模型。 | arXiv | 视频 | |
Track-Anything | Track-Anything 是一个灵活且交互性的视频对象跟踪与分割工具,基于 Segment Anything 和 XMem。 | arXiv | 视频 | |
Tune-A-Video | 图像扩散模型的一次性调优用于文本到视频生成。 | arXiv | 视频 | |
TwelveLabs | 像人类一样理解视频的多模态 AI。 | 视频 | ||
UniVG | 面向统一模式的视频生成。 | 视频 | ||
VGen | 基于扩散模型的视频生成整体生态系统。 | arXiv | 视频 | |
Video-ChatGPT | Video-ChatGPT 是一个能够生成视频对话的模型。 | arXiv | 视频 | |
VideoComposer | 具有运动控制功能的组件化视频合成。 | arXiv | 视频 | |
VideoCrafter1 | 用于高质量视频生成的开放扩散模型。 | arXiv | 视频 | |
VideoCrafter2 | 克服数据限制的高质量视频扩散模型。 | arXiv | 视频 | |
VideoDrafter | 具有 LLM 的内容一致多场景视频生成。 | arXiv | 视频 | |
VideoElevator | 通过多功能文本到图像扩散模型提升视频生成质量。 | arXiv | 视频 | |
VideoFactory | 在时空扩散中交换注意力用于文本到视频生成。 | 视频 | ||
VideoGen | 高分辨率文本到视频生成的参考引导潜在扩散方法。 | arXiv | 视频 | |
VideoLCM | 视频潜在一致性模型。 | arXiv | 视频 | |
Video LDMs | 调整你的潜在变量:使用潜在扩散模型生成高分辨率视频。 | arXiv | 视频 | |
Video-LLaVA | 在投影前对齐中学习联合视觉表示。 | arXiv | 视频 | |
VideoMamba | 用于高效视频理解的状态空间模型。 | arXiv | 视频 | |
Video-of-Thought | 思考视频:从感知到认知逐步的视频推理。 | 视频 | ||
VideoPoet | 零样本视频生成的大型语言模型。 | arXiv | 视频 | |
Vispunk Motion | 仅用文本创建现实视频。 | 视频 | ||
VisualRWKV | VisualRWKV 是增强版的 RWKV 语言模型,使 RWKV 能处理各种视觉任务。 | 视觉 | ||
V-JEPA | 视频联合嵌入预测架构。 | arXiv | 视频 | |
W.A.L.T | 使用扩散模型生成逼真的视频。 | arXiv | 视频 | |
Zeroscope | Zeroscope 文本到视频转换。 | 视频 |
音频
来源 | 描述 | 论文 | 游戏引擎 | 类型 |
---|---|---|---|---|
AcademiCodec | 一个面向学术研究的开源音频编解码模型。 | 音频 | ||
Amphion | 一个开源的音频、音乐和语音生成工具包。 | arXiv | 音频 | |
ArchiSound | 使用扩散模型进行音频生成,基于PyTorch。 | 音频 | ||
Audiobox | 使用自然语言提示进行统一的音频生成。 | 音频 | ||
AudioEditing | 使用DDPM反转进行零样本无监督和基于文本的音频编辑。 | arXiv | 音频 | |
Audiogen Codec | 一种低压缩的48khz立体声神经音频编解码器,优化音频保真度 🎵。 | 音频 | ||
AudioGPT | 理解和生成语音、音乐、声音和会说话的头。 | arXiv | 音频 | |
AudioLCM | 通过潜在一致性模型进行文本到音频生成。 | arXiv | 音频 | |
AudioLDM | 使用潜在扩散模型进行文本到音频生成。 | arXiv | 音频 | |
AudioLDM 2 | 使用自监督预训练学习整体的音频生成。 | arXiv | 音频 | |
Auffusion | 利用扩散模型和大型语言模型的力量进行文本到音频生成。 | arXiv | 音频 | |
CTAG | 通过合成器编程进行创意文本到音频生成。 | 音频 | ||
FoleyCrafter | FoleyCrafter:使无声视频生动起来,配以逼真且同步的声音。 | arXiv | 音频 | |
MAGNeT | 使用单个非自回归变换器的遮罩音频生成。 | 音频 | ||
Make-An-Audio | 使用提示增强扩散模型进行文本到音频生成。 | arXiv | 音频 | |
Make-An-Audio 3 | 通过基于流的扩散变换器进行文本转音频。 | arXiv | 音频 | |
NeuralSound | 使用声学传递的基于学习的模式声音合成。 | arXiv | 音频 | |
OptimizerAI | 为创作者、游戏制作者、艺术家、视频制作者提供声音。 | 音频 | ||
Qwen2-Audio | 由阿里巴巴云提出的Qwen2-Audio聊天和预训练大型音频语言模型。 | arXiv | 音频 | |
SEE-2-SOUND | 零样本空间环境到空间声音。 | arXiv | 音频 | |
SoundStorm | 高效并行音频生成。 | arXiv | 音频 | |
Stable Audio | 快速时间条件的潜在音频扩散。 | 音频 | ||
Stable Audio Open | Stable Audio Open 1.0可以从文本提示生成可变长度(最长达47秒)的44.1kHz立体声音频。 | 音频 | ||
SyncFusion | SyncFusion:多模态同步开始的视频到音频拟音合成。 | arXiv | 音频 | |
TANGO | 使用指令调谐LLM和潜在扩散模型进行文本到音频生成。 | 音频 | ||
VTA-LDM | 视频到音频生成,带有隐藏对齐。 | arXiv | 音频 | |
Wavjourney | 使用大型语言模型进行合成音频创作。 | arXiv | 音频 |
音乐
来源 | 描述 | 论文 | 游戏引擎 | 类型 |
---|---|---|---|---|
AIVA | 人工智能创作情感配乐。 | 音乐 | ||
Amper Music | 由Amper提供支持的定制音乐生成技术。 | 音乐 | ||
Boomy | 创建生成音乐,与世界分享。 | 音乐 | ||
ChatMusician | 将内在音乐能力引入大型语言模型。 | 音乐 | ||
Chord2Melody | 自动音乐生成AI。 | 音乐 | ||
Diff-BGM | 用于视频背景音乐生成的扩散模型。 | arXiv | 音乐 | |
GPTAbleton | 用于处理GPT响应并通过AbletonOSC和python-osc将MIDI音符发送到Ableton剪辑的草稿脚本。 | 音乐 | ||
HeyMusic.AI | AI音乐生成器。 | 音乐 | ||
Image to Music | AI图像到音乐生成器是一种使用人工智能将图像转换为音乐的工具。 | 音乐 | ||
JEN-1 | 通过全向扩散模型进行文本引导的通用音乐生成。 | 音乐 | ||
Jukebox | 一个音乐生成模型。 | arXiv | 音乐 | |
Magenta | Magenta是一个研究项目,探索机器学习在艺术和音乐创作过程中的作用。 | 音乐 | ||
MeLoDy | 高效的神经音乐生成。 | 音乐 | ||
Mubert | AI生成音乐。 | 音乐 | ||
MuseNet | 一种能生成4分钟多乐器音乐作品的深度神经网络,可以融合从乡村到莫扎特到披头士等风格。 | 音乐 | ||
MusicGen | 简单且可控的音乐生成。 | arXiv | 音乐 | |
MusicLDM | 使用节拍同步混合策略增强文本到音乐生成的新颖性。 | arXiv | 音乐 | |
MusicLM | 从文本生成音乐。 | arXiv | 音乐 | |
Riffusion App | Riffusion是一个基于稳定扩散的实时音乐生成应用程序。 | 音乐 | ||
Sonauto | Sonauto是一个AI音乐编辑器,可以将提示、歌词或旋律转化为任何风格的完整歌曲。 | 音乐 | ||
SoundRaw | 为创作者提供AI音乐生成器。 | 音乐 | ||
Soundry AI | 生成AI工具,包括文本到声音和无限样本包。 | 音乐 |
歌声
<SOURCE_TEXT>
| 来源 | 描述 | 论文 | 游戏引擎 | 类型 |
| :------------------------------------------------------------------------------------------ | :--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------- | :-----------: | :-----------: | :-------: |
| [DiffSinger](https://github.com/MoonInTheRiver/DiffSinger) | 通过浅层扩散机制进行歌声合成。 | [arXiv](https://arxiv.org/abs/2105.02446) | | 歌声合成 |
| [Retrieval-based-Voice-Conversion-WebUI](https://github.com/liujing04/Retrieval-based-Voice-Conversion-WebUI) | 一种基于VITS的易于使用的声音转换框架。 | | | 歌声合成 |
| [so-vits-svc](https://github.com/svc-develop-team/so-vits-svc) | SoftVC VITS 歌声转换。 | | | 歌声合成 |
| [VI-SVS](https://github.com/PlayVoice/VI-SVS) | 使用VITS和Opencpop进行歌声合成开发;与VISinger不同。 | | | 歌声合成 |
<p style="text-align: right;"><a href="#table-of-contents">^ 返回目录 ^</a></p>
## <span id="speech">语音</span>
| 来源 | 描述 | 论文 | 游戏引擎 | 类型 |
| :------------------------------------------------------------------------------------------ | :--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------- | :-----------: | :-----------: | :-------: |
| [Applio](https://github.com/IAHispano/Applio) | 终极语音克隆工具,经过精心优化,拥有无与伦比的强大功能、模块化和用户友好的体验。 | | | 语音 |
| [Audyo](https://www.audyo.ai/) | 输入文本。输出音频。 | | | 语音 |
| [Bark](https://github.com/suno-ai/bark) | 基于文本提示的生成音频模型。 | | | 语音 |
| [Bert-VITS2](https://github.com/fishaudio/Bert-VITS2) | 带有多语言bert的VITS2骨干模型。 | | | 语音 |
| [ChatTTS](https://github.com/2noise/ChatTTS) | ChatTTS是一种用于日常对话的生成语音模型。 | | | 语音 |
| [CLAPSpeech](https://clapspeech.github.io/) | 使用对比语言-音频预训练从文本上下文中学习韵律。 | [arXiv](https://arxiv.org/abs/2305.10763) | | 语音 |
| [CosyVoice](https://github.com/FunAudioLLM/CosyVoice) | 多语言大规模语音生成模型,提供推理、训练和部署的全栈能力。 | | | 语音 |
| [DEX-TTS](https://github.com/winddori2002/DEX-TTS) | 基于扩散的表达式文本转语音,具有时间变异性风格建模。 | [arXiv](https://arxiv.org/abs/2406.19135) | | 语音 |
| [EmotiVoice](https://github.com/netease-youdao/EmotiVoice) | 多语音和提示控制TTS引擎。 | | | 语音 |
| [Fliki](https://fliki.ai/) | 使用AI语音将文本转换为视频。 | | | 语音 |
| [Glow-TTS](https://github.com/jaywalnut310/glow-tts) | 通过单调对齐搜索实现文本到语音的生成流。 | [arXiv](https://arxiv.org/abs/2005.11129) | | 语音 |
| [GPT-SoVITS](https://github.com/RVC-Boss/GPT-SoVITS) | 强大的少样本语音转换和文本转语音WebUI。 | | | 语音 |
| [LOVO](https://lovo.ai/) | LOVO是数千名创作者的首选AI语音生成器和文本转语音平台。 | | | 语音 |
| [MahaTTS](https://github.com/dubverse-ai/MahaTTS) | 开源的大规模语音生成模型。 | | | 语音 |
| [Matcha-TTS](https://github.com/shivammehta25/Matcha-TTS) | 具有条件流匹配的快速TTS架构。 | [arXiv](https://arxiv.org/abs/2309.03199) | | 语音 |
| [MeloTTS](https://github.com/myshell-ai/MeloTTS) | MyShell.ai提供的高质量多语言文本转语音库。支持英语、西班牙语、法语、中文、日语和韩语。 | | | 语音 |
| [MetaVoice-1B](https://github.com/metavoiceio/metavoice-src) | 人类水平语音智能的AI。 | | | 语音 |
| [Narakeet](https://www.narakeet.com/) | 使用真实感文本转语音轻松创建旁白。 | | | 语音 |
| [One-Shot-Voice-Cloning](https://github.com/CMsmartvoice/One-Shot-Voice-Cloning) | 基于Unet-TTS的一次性语音克隆。 | | | 语音 |
| [OpenVoice](https://github.com/myshell-ai/OpenVoice) | MyShell瞬间语音克隆。 | | | 语音 |
| [OverFlow](https://github.com/shivammehta25/OverFlow) | 通过在神经变换器上添加流来改进TTS。 | | | 语音 |
| [RealtimeTTS](https://github.com/KoljaB/RealtimeTTS) | RealtimeTTS是一种专为实时应用设计的最先进的文本转语音(TTS)库。 | | | 语音 |
| [SenseVoice](https://github.com/FunAudioLLM/SenseVoice) | SenseVoice是一个语音基础模型,具有多种语音理解能力,包括自动语音识别(ASR)、口语语言识别(LID)、语音情感识别(SER)和音频事件检测(AED)。 | | | 语音 |
| [SpeechGPT](https://github.com/0nutation/SpeechGPT) | 赋予大语言模型内在的跨模态对话能力。 | [arXiv](https://arxiv.org/abs/2305.11000) | | 语音 |
| [speech-to-text-gpt3-unity](https://github.com/dr-iskandar/speech-to-text-gpt3-unity) | 这是我在Unity中使用OpenAI的Whisper和ChatGPT API的代码库。 | | Unity | 语音 |
| [Stable Speech](https://github.com/sanchit-gandhi/stable-speech) | Stability AI的文本转语音模型。 | | | 语音 |
| [StableTTS](https://github.com/KdaiP/StableTTS) | 使用流匹配和DiT的下一代TTS模型,灵感来自Stable Diffusion 3。 | | | 语音 |
| [StyleTTS 2](https://github.com/yl4579/StyleTTS2) | 通过大型语音语言模型进行风格扩散和对抗性训练,朝着人类级别的文本转语音迈进。 | [arXiv](https://arxiv.org/abs/2306.07691) | | 语音 |
| [TorToiSe-TTS](https://github.com/neonbjb/tortoise-tts) | 一个强调质量的多语音TTS系统。 | | | 语音 |
| [TTS Generation WebUI](https://github.com/rsxdalv/tts-generation-webui) | TTS Generation WebUI(包括Bark、MusicGen、Tortoise、RVC、Vocos、Demucs)。 | | | 语音 |
| [VALL-E](https://valle-demo.github.io/) | 神经编解码语言模型是零样本文本转语音合成器。 | [arXiv](https://arxiv.org/abs/2301.02111) | | 语音 |
| [VALL-E X](https://vallex-demo.github.io/) | 用你的声音说外语:跨语言神经编解码语言模型。 | [arXiv](https://arxiv.org/abs/2303.03926) | | 语音 |
| [Vocode](https://docs.vocode.dev/) | Vocode是一个构建基于语音的LLM应用的开源库。 | | | 语音 |
| [Voicebox](https://github.com/SpeechifyInc/Meta-voicebox) | 文本引导的多语言通用语音大规模生成。 | [arXiv](https://arxiv.org/abs/2306.15687) | | 语音 |
| [VoiceCraft](https://github.com/jasonppy/VoiceCraft) | 零样本语音编辑和野生文本转语音。 | | | 语音 |
| [Whisper](https://github.com/openai/whisper) | Whisper是一个通用的语音识别模型。 | | | 语音 |
| [WhisperSpeech](https://github.com/collabora/WhisperSpeech) | 通过反转Whisper构建的开源文本转语音系统。 | | | 语音 |
| [X-E-Speech](https://github.com/X-E-Speech/X-E-Speech-code) | 非自回归跨语言情感文本转语音和语音转换的联合训练框架。 | | | 语音 |
| [XTTS](https://github.com/coqui-ai/TTS) | XTTS是一个用于高级文本转语音生成的库。 | | | 语音 |
| [YourTTS](https://github.com/Edresson/YourTTS) | 面向零样本多说话人TTS和零样本语音转换。 | [arXiv](https://arxiv.org/abs/2112.02418) | | 语音 |
| [ZMM-TTS](https://github.com/nii-yamagishilab/ZMM-TTS) | 在自监督离散语音表示条件下的零样本多语言和多说话人语音合成。 | [arXiv](https://arxiv.org/abs/2312.14398) | | 语音 |
<p style="text-align: right;"><a href="#table-of-contents">^ 返回目录 ^</a></p>
## <span id="speech">分析</span>
| 来源 | 描述 | 游戏引擎 | 类型 |
| :------------------------------------------------------------------------------------------ | :--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------- | :-----------: | :-------: |
| [Ludo.ai](https://ludo.ai/) | 游戏研究和设计助手。 | | 分析 |
<p style="text-align: right;"><a href="#table-of-contents">^ 返回目录 ^</a></p>
</SOURCE_TEXT>