
ai-game-devtools
AI游戏开发工具的最新动向和详情
关注最新的AI游戏开发工具,如大型语言模型(LLM)、自主Agent、代码生成、写作助手、图片生成、纹理处理、着色器、3D模型、动画、视频、音频、音乐、歌声和数据分析。项目包括AgentGPT、AICommand、Auto-GPT、BabyAGI、ChatGPT-API-unity等。支持Unity和Unreal Engine的专用集成工具,还提供多种开源项目和学术研究链接,帮助开发者高效创建和优化AI驱动的游戏内容。
AI Game DevToolsLLMUnityAgentGPTCodeGithub开源项目
AI 游戏开发工具(AI-GDT) 🎮
<p align="center"> <img src="https://yellow-cdn.veclightyear.com/35dd4d3f/c3051bf2-c1b8-4b27-9d73-02783aff4f90.png" alt="AI-Game" style="display:block; margin:auto; width:580px;" /> </p>在这里,我们将跟踪最新的 AI 游戏开发工具,包括 LLM、代理(Agent)、代码、写作、图像、纹理、着色器、3D 模型、动画、视频、音频、音乐、歌声和分析。🔥
目录
项目列表
<span id="tool">工具(AI LLM)</span>
来源 | 描述 | 论文 | 引擎 | 类型 |
---|---|---|---|---|
AgentGPT | 🤖 在您的浏览器中组装、配置和部署自主AI代理。 | 工具 | ||
AICommand | Unity 编辑器与 ChatGPT 集成。 | Unity | 工具 | |
AIOS | 大模型代理操作系统。 | 工具 | ||
Assistant CLI | 使用 ChatGPT 服务的便捷命令行工具🔥 | 工具 | ||
Auto-GPT | 一种实验性的开源尝试,旨在使 GPT-4 完全自主。 | 工具 | ||
BabyAGI | 此 Python 脚本是一个 AI 驱动的任务管理系统示例。 | 工具 | ||
👶🤖🖥️ BabyAGI UI | BabyAGI UI 的设计是为了更容易在 web 应用程序中运行和开发 babyagi,如同 ChatGPT 一样。 | 工具 | ||
baichuan-7B | 百川科技开发的大规模 7B 预训练语言模型。 | 工具 | ||
Baichuan-13B | 百川智能科技开发的 13B 大型语言模型。 | 工具 | ||
Baichuan 2 | 百川智能科技开发的一系列大型语言模型。 | 工具 | ||
Bisheng | 笔胜是一个开源的大模型开发运维平台,用于下一代AI应用。 | 工具 | ||
Character-LLM | 一个用于角色扮演的可训练代理。 | arXiv | 工具 | |
ChatDev | 软件开发中用的通讯代理。 | arXiv | 工具 | |
ChatGPT-API-unity | 将 ChatGPT 聊天完成 API 绑定到 Unity 上的纯 C# 代码中。 | Unity | 工具 | |
ChatGPTForUnity | 用于 Unity 的 ChatGPT。 | Unity | 工具 | |
ChatRWKV | ChatRWKV 类似于 ChatGPT,但由 RWKV(100% RNN)语言模型驱动,并且是开源的。 | 工具 | ||
ChatYuan | 面向中英文对话的大型语言模型。 | 工具 | ||
Chinese-LLaMA-Alpaca-3 | 基于 Meta Llama 3 开发的中文Llama-3大型语言模型。 | 工具 | ||
Chrome-GPT | 一个控制您桌面上 Chrome 浏览器的 AutoGPT 代理。 | 工具 | ||
CogVLM | CogVLM,一个强大的开源视觉语言基础模型。 | arXiv | 工具 | |
CoreNet | 用于训练深度神经网络的库。 | 工具 | ||
DBRX | DBRX 是由 Databricks 训练的大型语言模型。 | 工具 | ||
DCLM | 用于语言模型的数据竞赛。 | arXiv | 工具 | |
DemoGPT | 使用 Llama 2 的力量自动生成 AI 应用程序。 | 工具 | ||
Design2Code | 自动化前端工程。 | 工具 | ||
Devika | Devika 是一个代理型 AI 软件工程师。 | 工具 | ||
Devon | 一个开源的配对编程助手。 | 工具 | ||
Dora | 一次性生成强大的网站。 | 工具 | ||
Flowise | 拖放 UI 构建您的自定义 LLM 流程使用 LangchainJS。 | 工具 | ||
Gemini | Gemini 从头开始为多模态而建——无缝地在文本、图像、视频、音频和代码之间进行推理。 | 工具 | ||
Gemma | Gemma 是一组轻量级、最先进的开源模型,基于创建 Google Gemini 模型的研究和技术。 | 工具 | ||
gemma.cpp | Google 的 Gemma 模型的轻量级、独立的 C++ 推理引擎。 | 工具 | ||
GLM-4 | GLM-4-9B 是由智谱 AI 推出的 GLM-4 系列最新一代预训练模型的开源版本。 | 工具 | ||
GPT4All | 一个训练在大量干净的助手数据(包括代码、故事和对话)上的聊天机器人。 | 工具 | ||
GPT-4o | GPT-4o(“o”代表“omni”)是实现更自然人机交互的一步——它接受任何文本、音频、图像和视频的组合输入,并生成任何文本、音频和图像的组合输出。 | 工具 | ||
GPTScript | 用自然语言开发大模型应用。 | 工具 | ||
Grok-1 | 我们的 3140 亿参数专家混合模型 Grok-1 的权重和架构。 | 工具 | ||
HuggingChat | 让社区最好的 AI 聊天模型人人可用。 | 工具 | ||
Hugging Face API Unity Integration | 此 Unity 包提供了 Hugging Face 推理 API 的易于使用的集成,允许运营商在其 Unity 项目中访问和使用 Hugging Face AI 模型。 | Unity | 工具 | |
ImageBind | ImageBind 一个嵌入空间绑定所有。 | arXiv | 工具 | |
Index-1.9B | 一个最先进的轻量级多语种大语言模型。 | 工具 | ||
InteractML-Unity | InteractML,一个用于 Unity3D 的可视化脚本框架。 | Unity | 工具 | |
InteractML-Unreal Engine | 将机器学习带入虚幻引擎。 | Unreal Engine | 工具 | |
InternLM | InternLM 已经开源了一个 70 亿参数基础模型,一个适应实际场景的聊天模型和训练系统。 | arXiv | 工具 | |
InternLM-XComposer | InternLM-XComposer2 是一个突破性的视觉语言大模型(VLLM),擅长自由形式的文本-图像组合与理解。 | arXiv | 工具 | |
Jan | 将AI带到您的桌面。 | 工具 | ||
Lamini | Lamini 让任何工程团队通过 RLHF 和在自己的数据上进行微调来超越通用的大规模语言模型。 | 工具 | ||
LaMini-LM | LaMini-LM 是从 ChatGPT 蒸馏并在大规模 2.58M 指令数据集上训练的小型高效语言模型集合。 | 工具 | ||
LangChain | LangChain 是一个用于开发大语言模型驱动的应用程序的框架。 | 工具 | ||
LangFlow | ⛓️ LangFlow 是一个 LangChain 的 UI,使用 react-flow 提供一种轻松实验和原型制作流的方法。 | 工具 | ||
LaVague | 使用大型动作模型框架自动化自动化流程。 | 工具 | ||
Lemur | 开源语言代理基础模型。 | 工具 | ||
Lepton AI | 一个简化AI服务构建的Python框架。 | 工具 | ||
Lit-LLaMA | 基于nanoGPT的LLaMA语言模型实现。支持闪存注意力、Int8和GPTQ 4位量化、LoRA和LLaMA-Adapter微调和预训练。 | 工具 | ||
llama2-webui | 在任何地方(Linux/Windows/Mac)使用gradio UI在GPU或CPU上本地运行Llama 2。 | 工具 | ||
Llama 3 | 官方的Meta Llama 3 GitHub站点。 | 工具 | ||
Llama 3.1 | Llama是一种对开发者、研究者和企业开放的大型语言模型(LLM),旨在构建、实验和负责任地扩展他们的生成AI创意。 | 工具 | ||
LLaSM | 大型语言和语音模型。 | 工具 | ||
LLM Answer Engine | 使用Next.js、Groq、Mixtral、Langchain、OpenAI、Brave和Serper构建一个受Perplexity启发的答案引擎。 | 工具 | ||
llm.c | 使用简单、原生的C/CUDA进行LLM训练。 | 工具 | ||
LLMUnity | 在Unity中创建具有LLM的角色! | Unity | 工具 | |
LLocalSearch | LLocalSearch是一种完全本地运行的使用LLM代理的搜索引擎。 | 工具 | ||
LogicGamesSolver | 一个使用AI、深度学习和计算机视觉解决逻辑游戏的Python工具。 | 工具 | ||
Large World Model (LWM) | Large World Model (LWM)是一种通用的大背景多模式自回归模型。 | arXiv | 工具 | |
Lumina-T2X | Lumina-T2X是一种统一的文本到各种模式生成框架。 | arXiv | 工具 | |
MetaGPT | 多代理框架 | 工具 | ||
MiniCPM-2B | 一种终端侧LLM,可超越Llama2-13B。 | 工具 | ||
MiniGPT-4 | 使用先进的大型语言模型增强视觉-语言理解。 | arXiv | 工具 | |
MiniGPT-5 | 通过生成Vokens插入视觉和语言生成任务。 | arXiv | 工具 | |
Mixtral 8x7B | 一种高质量的稀疏专家混合模型。 | arXiv | 工具 | |
Mistral 7B | 迄今为止最好的7B模型,使用Apache 2.0许可。 | 工具 | ||
Mistral Large | Mistral Large是一种新的前沿文本生成模型,具有顶级推理能力。 | 工具 | ||
MLC LLM | 使每个人都能够在自己的设备上开发、优化和部署AI模型。 | 工具 | ||
MobiLlama | 向准确且轻量化的完全透明GPT迈进。 | arXiv | 工具 | |
MoE-LLaVA | 大型视觉语言模型的专家混合。 | arXiv | 工具 | |
Moshi | Moshi是一种实验性的对话AI。 | 工具 | ||
MOSS | 来自复旦大学的开源工具增强对话语言模型。 | 工具 | ||
mPLUG-Owl🦉 | 模块化赋能大型语言模型以实现多模式。 | arXiv | 工具 | |
Nemotron-4 | 一种具有150亿参数的大型多语言模型,训练在8万亿文本tokens上。 | arXiv | 工具 | |
NExT-GPT | 任意到任意多模式大型语言模型。 | 工具 | ||
OLMo | 开放语言模型 | arXiv | 工具 | |
OmniLMM | 强大的多模式大型模型,具有高性能和高效部署。 | 工具 | ||
OneLLM | 一种框架,将所有模式与语言对齐。 | arXiv | 工具 | |
Open-Assistant | OpenAssistant是一种聊天助手,可以理解任务,能够与第三方系统交互,并动态检索信息以完成任务。 | 工具 | ||
OpenDevin | 自主AI软件工程师。 | 工具 | ||
Orion-14B | Orion-14B是一系列模型,包括一个14B基础LLM和一系列其他模型。 | arXiv | 工具 | |
Panda | 海外华人开源的大型语言模型,基于Llama-7B、-13B、-33B、-65B在中文领域进行持续预训练。 | 工具 | ||
Perplexica | 一个AI驱动的搜索引擎。 | 工具 | ||
Pi | 专用于个人协助和情感支持的AI聊天机器人。 | 工具 | ||
Qwen1.5 | Qwen1.5是Qwen的改进版。 | 工具 | ||
Qwen2 | Qwen2是由Qwen团队开发的大型语言模型系列,阿里云提供。 | 工具 | ||
Qwen-7B | 阿里云提出的Qwen-7B(通义千问-7B)聊天和预训练大型语言模型的官方版本库。 | 工具 | ||
RepoAgent | RepoAgent是一个由大型语言模型(LLMs)驱动的开源项目,旨在提供一种智能方式来记录项目。 | arXiv | 工具 | |
Sanity AI Engine | Unity游戏开发工具的Sanity AI引擎。 | Unity | 工具 | |
SearchGPT | 🌳 将ChatGPT连接到互联网 | 工具 | ||
ShareGPT4V | 通过更好的描述提升大型多模式模型。 | 工具 | ||
Skywork | Skywork系列模型在高质量的多语言(主要是中文和英文)和代码数据的3.2TB数据上进行预训练。 | 工具 | ||
StableLM | Stability AI语言模型。 | arXiv | 工具 | |
Stanford Alpaca | 一种遵循指令的LLaMA模型。 | 工具 | ||
Text generation web UI | 用于运行大型语言模型(如LLaMA、llama.cpp、GPT-J、OPT和GALACTICA)的gradio网络UI。 | 工具 | ||
TinyChatEngine | 设备上的LLM推理库。 | 工具 | ||
ToolBench | 一个用于训练、服务和评估大型语言模型的开放平台,专注于工具学习。 | 工具 | ||
Unity ChatGPT | Unity ChatGPT 实验. | Unity | 工具 | |
Unity OpenAI-API Integration | 将openai GPT-3语言模型和ChatGPT API集成到Unity项目中. | Unity | 工具 | |
Unreal Engine 5 Llama LoRA | 一个概念验证项目,展示了使用小型本地可训练LLM创建下一代文档工具的潜力. | Unreal Engine | 工具 | |
UnrealGPT | 一组由GPT3/4驱动的Unreal Engine 5编辑器实用程序小部件. | Unreal Engine | 工具 | |
Video-LLaVA | 通过对齐前的投影学习统一的视觉表示. | arXiv | 工具 | |
WebGPT | 使用WebGPU在浏览器上运行GPT模型. | 工具 | ||
Web3-GPT | 使用AI部署智能合约. | 工具 | ||
WordGPT | 🤖 将ChatGPT的强大功能带到Microsoft Word. | 工具 | ||
XAgent | 一个用于解决复杂任务的自主LLM代理. | 工具 | ||
Yi | 一系列从头开始由开发者训练的大型语言模型. | 工具 | ||
01 Project | 开源语言模型计算机. | 工具 |
<span id="game">游戏 (代理)</span>
来源 | 描述 | 论文 | 游戏引擎 | 类型 |
---|---|---|---|---|
AgentBench | 一个全面的 基准,用于评估大型语言模型(Large Language Models, LLMs)作为代理的表现。 | arXiv | 代理 | |
Agent Group Chat | 用于更好地引导集体涌现行为的交互式群聊模仿。 | arXiv | 代理 | |
AgentScope | 更容易地开始构建由LLM赋能的多代理应用程序。 | arXiv | 代理 | |
AgentSims | 一个开源沙箱,用于大型语言模型的评估。 | 代理 | ||
AI Town | AI Town是一个虚拟小镇,其中AI角色生活、聊天和社交。 | 代理 | ||
anime.gf | CharacterAI的本地和开源替代品。 | 游戏 | ||
Astrocade | 使用AI创建游 戏。 | 游戏 | ||
Atomic Agents | Atomic Agents框架设计为模块化、可扩展且易于使用。 | 代理 | ||
AutoAgents | 自动代理生成框架。 | 代理 | ||
AutoGen | 启用下一代大型语言模型应用程序。 | arXiv | 代理 | |
behaviac | Behaviac是一个游戏AI开发框架。 | 框架 | ||
Biomes | Biomes是使用Web技术,例如Next.js、Typescript、React和WebAssembly,为Web而构建的开源沙盒MMORPG。 | 游戏 | ||
Buffer of Thoughts | 使用大型语言模型的思维增强推理。 | arXiv | 代理 | |
Byzer-Agent | 一个为所有人设计的简单、快速和分布式代理框架。 | 代理 | ||
Cat Town | 一个由C(h)atGPT驱动的猫咪模拟游戏。 | 代理 | ||
CharacterGLM | 使用大型语言模型自定义中文对话AI角色。 | arXiv | 代理 | |
ChatDev | 用于软件开发的通信代理。 | arXiv | 代理 | |
CogAgent | CogAgent是一个基于CogVLM改进的开源视觉语言模型。 | arXiv | 代理 | |
Cradle | 面向通用计算机控制。 | 代理 | ||
crewAI | 用于编排角色扮演、自主AI代理的框架。 | 代理 | ||
Dify | Dify是一个开源的LLM应用构建平台。 | 代理 | ||
Digital Life Project | 拥有社会智能的自主3D角色。 | arXiv | 代理 | |
everything-ai | 您完全熟练、由AI驱动的本地聊天助手🤖。 | 代理 | ||
fabric | fabric是一个开源框架,用于使用AI增强人类能力。 | 代理 | ||
FastGPT | FastGPT是一个基于LLM的知识平台。 | 代理 | ||
fastRAG | 高效的检索增强生成框架。 | 代理 | ||
GameAISDK | 基于图像的游戏AI自动化框架。 | 框架 | ||
Generative Agents | 人类行为的交互模拟。 | arXiv | 代理 | |
Genie | 生成式交互环境。 | 游戏 | ||
gigax | 运行时,LLM驱动的NPC。 | 游戏 | ||
HippoRAG | 神经生物学启发的大型语言模型的长期记忆。 | arXiv | 代理 | |
Interactive LLM Powered NPCs | 互动的LLM驱动的NPC,是一个开源项目,彻底改变您与任何游戏中NPC的互动! | 游戏 | ||
IoA | 一个开源框架,用于协作AI代理,使多样化、分布式的代理能够通过类似互联网的连接合作并解决复杂任务。 | 代理 | ||
KwaiAgents | 一个由大型语言模型(LLMs)驱动的通用信息搜索代理系统。 | arXiv | 代理 | |
LangChain | 从原型到生产,完成您的LLM应用。 | 代理 | ||
Langflow | Langflow是LangChain的用户界面,使用react-flow设计,提供了一种轻松实验和原型流的方式。 | 代理 | ||
LangGraph Studio | LangGraph Studio提供了一种新的方法来开发LLM应用程序,通过提供专用代理IDE,允许可视化、交互和调试复杂的代理应用程序。 | 代理 | ||
LARP | 用于开放世界游戏的语言代理角色扮演。 | arXiv | 代理 | |
LLama Agentic System | Llama堆栈API的代理组件。 | 代理 | ||
LlamaIndex | LlamaIndex是您的LLM应用的数据框架。 | 代理 | ||
MindSearch | 🔍一个基于LLM的多代理Web搜索引擎框架(类似于Perplexity.ai Pro和SearchGPT)。 | 代理 | ||
Mixture of Agents (MoA) | 代理混合增强大型语言模型的能力。 | arXiv | 代理 | |
MMRole | MMRole:开发和评估多模态角色扮演代理的综合框架。 | arXiv | 代理 | |
Moonlander.ai | 使用生成式AI开始构建3D游戏,而无需任何编码。 | 框架 | ||
MuG Diffusion | MuG Diffusion是基于稳定扩散(最强大的AIGC模型之一)的节奏游戏制谱AI,进行了大量修改以结合音频波。 | 游戏 | ||
OmAgent | 一个用于解决复杂任务的多模态代理框架。 | 代理 | ||
OpenAgents | 野外语言代理的开放平台。 | 代理 | ||
Opus | 一个将文本变成视频游戏的AI应用程序。 | 游戏 | ||
Pipecat | 用于语音和多模态对话AI的开源框架。 | 代理 | ||
Qwen-Agent | Qwen-Agent是一个框架,用于基于Qwen的指令跟随、工具使用、规划和记忆能力,开发LLM应用程序。 | 代理 | ||
Ragas | Ragas是一个框架,可以帮助您评估检索增强生成(RAG)管道。 | 代理 | ||
SIMA | 用于3D虚拟环境的通用AI代理。 | 代理 | ||
StoryGames.ai | 梦想家的AI用来制作游戏。 | 游戏 | ||
SWE-agent | 代理计算机接口使软件工程语言模型成为可能。 | arXiv | 代理 | |
TaskGen | 一个基于任务的框架,通过LLM代理产生StrictJSON输出。 | 代理 | ||
Translation Agent | 使用反思工作流程进行代理翻译。 | 代理 | ||
Video2Game | 从单个视频中创建实时、互动、逼真且兼容浏览器的环境。 | arXiv | 游戏 | |
V-IRL | 将虚拟智能落地于现实生活中。 | arXiv | 代理 | |
WebDesignAgent | 用于网页设计的代理。 | 代理 | ||
XAgent | 用于复杂任务解决的自主LLM代理。 | 代理 |
<span id="code">代码</span>
来源 | 描述 | 论文 | 游戏引擎 | 类别 |
---|---|---|---|---|
AI Code Translator | 使用 AI 将代码从一种语言翻译到另一种语言。 | 代码 | ||
aiXcoder-7B | aiXcoder-7B 大型语言模型。 | 代码 | ||
bloop | bloop 是一个用 Rust 编写的快速代码搜索引擎。 | 代码 | ||
Chapyter | Jupyter 笔记本中的 ChatGPT 代码解释器。 | 代码 | ||
CodeGeeX | 一个开放的多语言代码生成模型。 | arXiv | 代码 | |
CodeGeeX2 | 一个更强大的多语言代码生成模型。 | 代码 | ||
CodeGeeX4 | CodeGeeX4: 开放的多语言代码生成模型。 | 代码 | ||
CodeGen | CodeGen 是一个用于程序综合的开源模型。基于 TPU-v4 训练,与 OpenAI Codex 竞争。 | arXiv | 代码 | |
CodeGen2 | CodeGen2 模型用于程序综合。 | arXiv | 代码 | |
Code Llama | Code Llama 是一个基于 Llama 2 的大型代码语言模型。 | 代码 | ||
CodeTF | 用于最先进代码大型语言模型的一站式 Transformer 库。 | 代码 | ||
CodeT5 | 用于代码理解和生成的开源代码大型语言模型。 | 代码 | ||
Cursor | 在一种新型编辑器中用 GPT-4 编写、编辑和聊天代码。 | 代码 | ||
OpenAI Codex | OpenAI Codex 是 GPT-3 的后代。 | 代码 | ||
PandasAI | Pandas AI 是一个 Python 库,将生成性人工智能功能集成到 Pandas 中,使数据框架具 有会话能力。 | 代码 | ||
RobloxScripterAI | RobloxScripterAI 是一个为 Roblox 生成代码的 AI 工具。 | Roblox | 代码 | |
Scikit-LLM | 无缝集成强大的语言模型(如 ChatGPT)到 scikit-learn 中以增强文本分析任务。 | 代码 | ||
SoTaNa | 开源软件开发助手。 | arXiv | 代码 | |
Stable Code 3B | 边缘计算中的编码。 | 代码 | ||
StarCoder | 💫 StarCoder 是一个在源代码和自然语言文本上训练的语言模型。 | arXiv | 代码 | |
StarCoder 2 | StarCoder2 是一系列代码生成模型(3B, 7B, 15B),在 600 多种编程语言和一些自 然语言文本(如 Wikipedia, Arxiv, 和 GitHub issues)上训练。 | arXiv | 代码 | |
UnityGen AI | UnityGen AI 是一个用于 Unity 的 AI 代码生成插件。 | Unity | 代码 |
<span id="writer">写作</span>
来源 | 描述 | 论文 | 游戏引擎 | 类别 |
---|---|---|---|---|
AI-Writer | AI 编写小说,生成奇幻和浪漫网络文章等。中文预训练生成模型。 | 写作 | ||
Notebook.ai | Notebook.ai 是一套为作家、游戏设计师和角色扮演者创建宏大宇宙及其一切内容的工具。 | 写作 | ||
Novel | Notion 风格 WYSIWYG 编辑器,具有 AI 驱动的自动补全功能。 | 写作 | ||
NovelAI | 由 AI 驱动,轻松构建独特的故事、激动人心的故事、诱人的浪漫故事,或只是随便玩玩。 | 写作 |
<span id="image">图像</span>
来源 | 描述 | 论文 | 游戏引擎 | 类型 |
---|---|---|---|---|
AnyDoor | 零样本对象级图像定制。 | arXiv | 图像 | |
AnyText | 多语言视觉文本生成与编辑。 | arXiv | 图像 | |
AutoStudio | 在多轮交互图像生成中制作一致的主体。 | arXiv | 图像 | |
Blender-ControlNet | 在Blender中使用ControlNet 。 | Blender | 图像 | |
BriVL | 连接视觉和语言模型。 | arXiv | 图像 | |
CatVTON | CatVTON:虚拟试穿所需的全部是扩散模型的串联。 | arXiv | 图像 | |
CLIPasso | 一种将物体图像转换为草图的方法,允许不同程度的抽象。 | arXiv | 图像 | |
ClipDrop | 秒级创建惊艳视觉效果。 | 图像 | ||
ComfyUI | 一个功能强大、模块化的稳定扩散图形用户界面,具有图表/节点界面。 | 图像 | ||
ConceptLab | 使用扩散先验约束进行创意生成。 | arXiv | 图像 | |
ControlNet | ControlNet是通过添加额外条件来控制扩散模型的神经网络结构。 | arXiv | 图像 | |
DALL·E 2 | DALL·E 2是一个可以根据自然语言描述创建逼真图像和艺术作品的AI系统。 | 图像 | ||
Dashtoon Studio | Dashtoon Studio是一个由AI供能的漫画创作平台。 | 漫画 | ||
DeepAI | DeepAI提供一套利用AI增强创意的工具。 | 图像 | ||
DeepFloyd IF | IF由StabilityAI的DeepFloyd实验室开发。 | 图像 | ||
Depth Anything V2 | Depth Anything V2 | arXiv | 图像 | |
Depth map library and poser | 与Automatic1111/stable-diffusion-webui的Control Net扩展一起使用的深度图库。 | 图像 | ||
Diffuse to Choose | 丰富潜在扩散模型中的图像缝合条件,为虚拟全试提供方案。 | arXiv | 图像 | |
Disco Diffusion | 用于生成AI艺术和动画的工具组合,由各种笔记本电脑、模型和技巧组成的集成系统。 | 图像 | ||
DragGAN | 生成图像中的基于点的交互式操控。 | arXiv | 图像 | |
Draw Things | 口袋中的AI辅助图像生成。 | 图像 | ||
DWPose | 通过两阶段蒸馏进行有效的全身姿态估计。 | arXiv | 图像 | |
EasyPhoto | 你的智能AI照片生成器。 | 图像 | ||
Flux | 此存储库包含使用我们的Flux潜在校正流变换器进行文本图像和图像图像生成的最低推理代码。 | 图像 | ||
Follow-Your-Click | 通过短提示进行开放域区域图像动画。 | arXiv | 图像 | |
Fooocus | 专注于提示和生成。 | 图像 | ||
GIFfusion | 使用稳定扩散创建GIF和视频。 | 图像 | ||
Grounded-Segment-Anything | 自动检测、分割和生成图像、文本和音频输入中的所有内容。 | arXiv | 图像 | |
Hua | Hua是一个使用稳定扩散(及其他)的AI图像编辑器。 | 图像 | ||
Hunyuan-DiT | 具有细粒度中文理解能力的多分辨率强大扩散变压器。 | arXiv | 图像 | |
IC-Light | IC-Light是一个操控图像光照项目。 | 图像 | ||
Ideogram | 帮助人们变得更有创造力。 | 图像 | ||
Imagen | Imagen是一个从输入文本创建写实图像的AI系统。 | 图像 | ||
img2img-turbo | 一步图像到图像转换,使用SD-Turbo。 | 图像 | ||
Img2Prompt | 从稳定扩散生成的图像中获取提示。 | 图像 | ||
InstantID | 零样本身份保持生成,秒级完成。 | arXiv | 图像 | |
InternLM-XComposer2 | InternLM-XComposer2是一个突破性的视觉语言大模型(VLLM),在自由格式文本图像合成和理解方面表现出色。 | arXiv | 图像 | |
KOALA | 在内存高效和快速图像合成的扩散模型知识蒸馏中,自注意力重要。 | 图像 | ||
Kolors | Kolors:有效的写实文本到图像合成扩散模型训练方法。 | 图像 | ||
KREA | 使用令人愉悦的AI设计工具生成图像和视频。 | 图像 | ||
LaVi-Bridge | 连接不同语言模型和生成视觉模型进行文本到图像生成。 | arXiv | 图像 | |
LayerDiffusion | 使用潜在透明度进行透明图像层扩散。 | arXiv | 图像 | |
Lexica | 一个稳定扩散提示搜索引擎。 | 图像 | ||
LlamaGen | 自回归模型击败扩散:Llama用于可扩展图像生成。 | arXiv | 图像 | |
MetaShoot | MetaShoot是一个照片棚的数字双胞胎,作为虚幻引擎的插件开发,给予任何创作者以最简单和最快的方式制作高度逼真渲染的能力。 | Unreal Engine | 图像 | |
Midjourney | Midjourney是一个独立的研究实验室,探索新思维媒介并扩展人类的想象力。 | 图像 | ||
MIGC | MIGC:多实例生成控制器用于文本到图像合成。 | arXiv | 图像 | |
MimicBrush | 通过参考模仿进行零样本图像编辑。 | arXiv | 图像 | |
Omost | Omost是一个将LLM编码能力转换为图像生成(更准确地说是图像合成)能力的项目。 | 图像 | ||
Openpose Editor | AUTOMATIC1111's stable-diffusion-webui的Openpose编辑器。 | 图像 | ||
Outfit Anyone | 超高质量的虚拟试穿,适用于任何服装和任何人。 | 图片 | ||
PaintsUndo | PaintsUndo: 数字绘画行为的基本模型。 | 图片 | ||
PhotoMaker | 通过堆叠ID嵌入定制逼真的人类照片。 | arXiv | 图片 | |
Photoroom | AI背景生成器。 | 图片 | ||
Plask | 云端AI图像生成。 | 图片 | ||
Prompt.Art | 生成器中心。 | 图片 | ||
PuLID | 通过对比对齐实现纯净和闪电般的ID定制。 | arXiv | 图片 | |
Rich-Text-to-Image | 使用丰富文本的表达性文本到图像生成。 | arXiv | 图片 | |
RPG-DiffusionMaster | 掌握文本到图像扩散:重生成、规划和通过多模态LLM进行生成。 | 图片 | ||
SEED-Story | SEED-Story: 使用大型语言模型生成多模态长篇故事。 | arXiv | 图片 | |
Segment Anything | Segment Anything Model (SAM): 来自Meta AI的新AI模型,可以在任何图像中通过单击“剪切”任何对象。 | arXiv | 图片 | |
Segment Anything Model 2 (SAM 2) | SAM 2: 在图像和视频中分割任何事物。 | arXiv | 图片 | |
sd-webui-controlnet | ControlNet的WebUI扩展插件。 | 图片 | ||
SDXL-Lightning | 渐进式对抗扩散蒸馏。 | arXiv | 图片 | |
SDXS | 具有图像条件的实时一步潜在扩散模型。 | 图片 | ||
Stable.art | 以Automatic1111为后端的Stable Diffusion的Photoshop插件(本地或使用Google Colab)。 | 图片 | ||
Stable Cascade | Stable Cascade由三个模型组成:Stage A、Stage B和Stage C,代表生成图像的级联过程,因此命名为“Stable Cascade”。 | 图片 | ||
Stable Diffusion | 潜在的文本到图像扩散模型。 | 图片 | ||
stable-diffusion.cpp | 纯C/C++的Stable Diffusion。 | 图片 | ||
Stable Diffusion web UI | 基于Gradio库的Stable Diffusion浏览器界面。 | 图片 | ||
Stable Diffusion web UI | 基于Web的Stable Diffusion用户界面。 | 图片 | ||
Stable Diffusion WebUI Chinese | 中文版Stable Diffusion WebUI。 | 图片 | ||
Stable Diffusion XL | 从文本生成图像。 | arXiv | 图片 | |
Stable Diffusion XL Turbo | 实时文本到图像生成。 | 图片 | ||
Stable Doodle | Stable Doodle是一款从草图到图像的工具,可以将简单的绘画转化为动态图像。 | 图片 | ||
StableStudio | 由Stability AI开发的StableStudio。 | 图片 | ||
StreamDiffusion | 实时互动生成的流程级解决方案。 | 图片 | ||
StyleDrop | 任何风格的文本到图像生成。 | arXiv | 图片 | |
SyncDreamer | 从单视图图像生成多视图一致的图像。 | arXiv | 图片 | |
UltraEdit | UltraEdit: 基于指令的大规模细粒度图像编辑。 | arXiv | 图片 | |
UltraPixel | UltraPixel: 将超高分辨率图像合成推向新高峰。 | arXiv | 图片 | |
Unity ML Stable Diffusion | Unity上的核心ML Stable Diffusion。 | Unity | 图片 | |
Vispunk Visions | 文本到图像生成平台。 | 图片 |
<span id="texture">纹理</span>
来源 | 描述 | 论文 | 游戏引擎 | 类型 |
---|---|---|---|---|
CRM | 使用卷积重建模型将单张图像转化为3D纹理网格。 | arXiv | 纹理 | |
DreamMat | 利用几何和光照感知扩散模型生成高质量的PBR材质。 | arXiv | 纹理 | |
DreamSpace | 使用文本驱动的全景纹理传播,梦想到你的房间空间。 | 纹理 | ||
Dream Textures | 集成在Blender中的稳定扩散。使用简单的文本提示制作纹理、概念艺术、背景资产等。 | Blender | 纹理 | |
InstructHumans | 利用指令编辑动画3D人类纹理。 | arXiv | 纹理 | |
InteX | 通过统一的深度感知修复进行交互式文本到纹理合成。 | arXiv | 纹理 | |
MaterialSeg3D | MaterialSeg3D: 从2D先验中分割3D资产的密集材质。 | arXiv | 纹理 | |
MeshAnything | MaterialSeg3D: 从2D先验中分割3D资产的密集材质。 | arXiv | 网格 | |
Neuralangelo | 高保真神经表面重建。 | arXiv | 纹理 | |
Paint-it | 通过深度卷积纹理图优化和物理基础渲染进行文本到纹理合成。 | 纹理 | ||
Polycam | 只需输入文字即可创建自己的3D纹理。 | 纹理 | ||
TexFusion | 使用文本引导的图像扩散模型合成3D纹理。 | arXiv | 纹理 | |
Text2Tex | 通过扩散模型进行文本驱动的纹理合成。 | arXiv | 纹理 | |
Texture Lab | AI生成的纹理。你可以使用文本提示生成自己的纹理。 | 纹理 | ||
With Poly | 使用Poly创建纹理。使用AI在免费的在线编辑器中生成3D材质,或搜索我们不断增长的社区库。 | 纹理 | ||
X-Mesh | X-Mesh: 通过动态文本指导实现快速准确的文本驱动3D风格化。 | arXiv | 纹理 |
<span id="shader">着色器</span>
来源 | 描述 | 论文 | 游戏引擎 | 类型 |
---|---|---|---|---|
AI Shader | 基于ChatGPT的Unity着色器生成器。 | Unity | 着色器 |
<span id="model">3D模型</span>
来源 | 描述 | 论文 | 游戏引擎 | 类型 |
---|---|---|---|---|
Anything-3D | Segment-Anything + 3D。让任何东西提升到3D。 | arXiv | 模型 | |
Any2Point | Any2Point:使任何模态的大型模型能够高效理解3D。 | arXiv | 3D | |
BlenderGPT | 使用英语命令通过OpenAI的GPT-4控制Blender。 | Blender | 模型 | |
Blender-GPT | 集成GPT3/4和Whisper的全能Blender助手。 | Blender | 模型 | |
Blockade Labs | 使用Skybox Lab通过文本提示生成令人难以置信的360°天空盒体验的终极AI解决方案,数字炼金术变为现实。 | 模型 | ||
CF-3DGS | COLMAP-Free 3D Gaussian Splatting。 | arXiv | 3D | |
CharacterGen | CharacterGen:通过多视角姿态规范化从单个图像中高效生成3D角色。 | arXiv | 3D | |
chatGPT-maya | 一个简单的Maya工具,利用开放AI根据描述性指令执行基本任务。 | Maya | 模型 | |
CityDreamer | 无限3D城市的组合生成模型。 | arXiv | 3D | |
CSM | 从图像和视频生成3D世界。 | 3D | ||
Dash | 您在Unreal Engine中建立世界的副驾驶。 | Unreal Engine | 3D | |
DreamCatalyst | DreamCatalyst:通过控制可编辑性和身份保护进行快速和高质量的3D编辑。 | arXiv | 3D | |
DreamGaussian4D | 生成式4D高斯散点。 | arXiv | 4D | |
DUSt3R | 简化几何3D视觉。 | arXiv | 3D | |
GALA3D | GALA3D:通过布局引导的生成高斯散点实现文本到复杂3D场景的生成。 | arXiv | 3D | |
GaussCtrl | GaussCtrl: 多视角一致的文本驱动3D高斯散点编辑。 | arXiv | 3D | |
GaussianCube | 适用于3D生成建模的结构化和明确的辐射表示。 | arXiv | 3D | |
GaussianDreamer | 通过点云先验实现从文本到3D高斯点云的快速生成。 | arXiv | 3D | |
GenieLabs | 用AI-UGC增强您的游戏。 | 3D | ||
HiFA | 高保真文本到3D,具有先进的扩散指导。 | 模型 | ||
HoloDreamer | HoloDreamer:从文本描述生成整体3D全景世界。 | arXiv | 3D | |
Infinigen | 使用程序生成无限的逼真世 界。 | arXiv | 3D | |
Instruct-NeRF2NeRF | 通过指令编辑3D场景。 | arXiv | 模型 | |
Interactive3D | 通过交互3D生成创建您想要的内容。 | arXiv | 3D | |
Isotropic3D | 基于单个CLIP嵌入的图像到3D生成。 | 3D | ||
LATTE3D | 大规模委托文本到增强3D的合成。 | arXiv | 3D | |
LION | 用于3D形状生成的潜在点扩散模型。 | arXiv | 模型 | |
Luma AI | 捕捉逼真的3D。无与伦比的逼真度、反射和细节。VFX的未来即现在,属 于每个人! | 模型 | ||
lumine AI | AI赋能的创造力。 | 3D | ||
Make-It-3D | 从单个图像生成高保真3D,使用扩散先验。 | arXiv | 模型 | |
Meshy | 使用AI创建令人惊叹的3D游戏资产。 | 3D | ||
Mootion | 神奇的3D AI动画制作器。 | 3D | ||
MVDream | 多视角扩散用于3D生成。 | arXiv | 3D | |
NVIDIA Instant NeRF | 快速生成神经图形原语:闪电般快速的NeRF等。 | 模型 | ||
One-2-3-45 | 在45秒内 从任意单个图像生成3D网格,无需每个形状的优化。 | arXiv | 模型 | |
Paint3D | 使用无光照纹理扩散模型绘制任何3D内容。 | arXiv | 3D | |
PAniC-3D | 从动漫角色肖像的单视图进行风格化3D重建。 | arXiv | 模型 | |
Point·E | 点云扩散用于3D模型合成。 | 模型 | ||
ProlificDreamer | 使用变分评分蒸馏进行高保真和多样化的文本到3D生成。 | arXiv | 模型 | |
SF3D | SF3D:具有UV解包和光照解耦的稳定快速3D网格重建。 | arXiv | 3D | |
Shap-E | 基于文本或图像生成3D对象。 | arXiv | 模型 | |
Sloyd | 3D建模从未如此简单。 | 模型 | ||
Spline AI | AI的力量来到第三维度。使用提示生成对象、动画和纹理。 | 模型 | ||
Stable Dreamfusion | 文本到3D模型Dreamfusion的pytorch实现,基于文本到2D模型的稳定扩散。 | 模型 | ||
SV3D | 使用潜在视频扩散技术从单个图像生成新颖的多视角合成和3D生成。 | arXiv | 3D | |
Tafi | AI文本转3D角色引擎。 | 模型 | ||
3D-GPT | 使用大型语言模型进行程序化3D建模。 | arXiv | 3D | |
3D-LLM | 将3D世界注入大型语言模型中。 | arXiv | 3D | |
3Dpresso | 从视频中提取对象的3D模型。 | 模型 | ||
3DTopia | 5分钟内生成3D模型。 | arXiv | 3D | |
threestudio | 一个统一的3D内容生成框架。 | 模型 | ||
TripoSR | 从单张图像快速前馈3D重建的开源模型。 | arXiv | 模型 | |
Unique3D | 从单张图像生成高质量且高效的3D网格。 | arXiv | 3D | |
UnityGaussianSplatting | Unity中的玩具高斯喷射可视化。 | Unity | 3D | |
ViVid-1-to-3 | 使用视频扩散模型的新视角合成。 | arXiv | 3D | |
Voxcraft | 使用AI打造可使用的3D模型。 | 3D | ||
Wonder3D | 使用跨域扩散从单张图像生成3D模型。 | arXiv | 3D | |
Zero-1-to-3 | 零样本从单张图像生成3D对象。 | arXiv | 模型 |
<span id="avatar">头像</span>
来源 | 描述 | 论文 | 游戏引擎 | 类型 |
---|---|---|---|---|
AniPortrait | 音频驱动的真实感头像动画合成。 | arXiv | 头像 | |
CALM | 可操控虚拟角色的条件对抗潜在模型。 | arXiv | 头像 | |
ChatAvatar | 在文本引导下逐步生成可动画的 3D 面孔。 | 头像 | ||
ChatdollKit | ChatdollKit使您能够将 3D 模型转换为聊天机器人。 | Unity | 头像 | |
DreamTalk | 当表情丰富的谈话头生成遇到扩散概率模型。 | arXiv | 头像 | |
Duix | Duix - 基于硅的数字人 SDK 🌐🤖 | 头像 | ||
EchoMimic | EchoMimic: 通过可编辑的标志条件实现的逼真的音频驱动肖像动画。 | arXiv | 头像 | |
EMOPortraits | 加强情感的多模态单次头像。 | 头像 | ||
E3 Gen | 高效、富有表现力且可编辑的头像生成。 | arXiv | 头像 | |
GeneAvatar | 从单图像生成的通用表情感知体积头部头像编辑。 | arXiv | 头像 | |
GeneFace++ | 通用且稳定的实时3D谈话面孔生成。 | 头像 | ||
Hallo | 用于肖像图像动画的分层音频驱动视觉合成。 | arXiv | 头像 | |
HeadSculpt | 用文本制作3D头部头像。 | arXiv | 头像 | |
IntrinsicAvatar | IntrinsicAvatar: 通过显式光线追踪从单眼视频物理基础逆向渲染动态人类。 | arXiv | 头像 | |
Linly-Talker | 数字头像对话系统。 | 头像 | ||
LivePortrait | LivePortrait: 通过拼接和重新定向控制实现高效肖像动画。 | arXiv | 头像 | |
MotionGPT | 将人体运动视作外语,使用大型语言模型的统一运动语言生成模型。 | arXiv | 头像 | |
MusePose | MusePose: 一个用于虚拟人类生成的姿态驱动图像到视频框架。 | 头像 | ||
MuseTalk | 通过潜在空间修复实现的实时高质量唇部同步。 | 头像 | ||
MuseV | 通过视觉条件并行降噪实现无限长度高保真虚拟人类视频生成。 | 头像 | ||
Portrait4D | 使用合成数据学习单次4D头部头像合成。 | arXiv | 头像 | |
Ready Player Me | 在几天内将可定制的头像集成到您的游戏或应用中。 | 头像 | ||
RodinHD | RodinHD: 使用扩散模型生成高保真3D头像。 | arXiv | 头像 | |
StyleAvatar3D | 利用图像-文本扩散模型生成高保真3D头像。 | arXiv | 头像 | |
Text2Control3D | 使用几何引导的图像到文本扩散模型生成可控的3D头像。 | arXiv | 头像 | |
Topo4D | 拓扑保持高保真 4D 头部捕捉的高斯喷洒。 | arXiv | 头像 | |
UnityAIWithChatGPT | 基于 Unity, 实现 ChatGPT+UnityChan 语音互动显示。 | Unity | 头像 | |
Vid2Avatar | 通过自监督场景分解从野外视频重建3D头像。 | arXiv | 头像 | |
VLOGGER | 用于化身合成的多模态扩散。 | 头像 | ||
Wild2Avatar | 渲染遮挡背后的人类。 | arXiv | 头像 |
<span id="animation">动画</span>
<SOURCE_TEXT>
来源 | 描述 | 论文 | 游戏引擎 | 类型 |
---|---|---|---|---|
Animate Anyone | 一致且可控的图像到视频的角色动画合成。 | arXiv | 动画 | |
AnimateAnything | 基于运动指导的精细开放域图像动画。 | arXiv | 动画 | |
AnimateDiff | 无需特定调优,动画化个性化文本到图像扩散模型。 | arXiv | 动画 | |
AnimateLCM | 通过四个步骤加速视频生成! | arXiv | 动画 | |
AnimateZero | 视频扩散模型是零样本图像动画生成器。 | arXiv | 动画 | |
AnimationGPT | 一种用于生成游戏战斗动作素材的 AIGC 工具。 | 动画 | ||
Deforum | Deforum 利用稳定扩散技术生成不断演变的 AI 视觉效果。 | 动画 | ||
DreaMoving | 基于扩散模型的人类视频生成框架。 | arXiv | 动画 | |
FaceFusion | 下一代换脸和增强工具。 | 动画 | ||
FreeInit | 在视频扩散模型中弥合初始化差距。 | arXiv | 动画 | |
GeneFace | 广义和高保真音频驱动的 3D 说话人脸合成。 | arXiv | 动画 | |
ID-Animator | 零样本身份保留的人类视频生成。 | arXiv | 动画 | |
MagicAnimate | 使用扩散模型生成时间一致性的人类图像动画。 | arXiv | 动画 | |
NUWA | DragNUWA 是一个开放域基于扩散的视频生成模型,可以将文本、图像和轨迹控制作为输入,实现可控视频生成。 | arXiv | 动画 | |
NUWA-Infinity | NUWA-Infinity 是一个多模态生成模型,可以根据给定的文本、图像或视频输入生成高质量图像和视频。 | 动画 | ||
NUWA-XL | 一种用于极长视频生成的扩散建筑上的新型架构。 | 动画 | ||
Omni Animation | AI 生成高保真动画。 | 动画 | ||
PIA | 通过文本到图像模型中的即插即用模块实现个性化图像动画。 | arXiv | 动画 | |
SadTalker | 学习逼真的 3D 运动系数以实现样式化音频驱动的单图像说话人像动画。 | arXiv | 动画 | |
SadTalker-Video-Lip-Sync | 该项目基于 SadTalkers Wav2lip 实现视频唇形合成。 | 动画 | ||
Stable Animation | 面向开发者的强大文本到动画工具。 | 动画 | ||
TaleCrafter | 一个支持多个角色的互动故事可视化工具。 | arXiv | 动画 | |
ToonCrafter | ToonCrafter:生成卡通插值。 | arXiv | 动画 | |
Wav2Lip | 准确地在自然环境中实现视频唇形同步。 | arXiv | 动画 | |
Wonder Studio | 一个自动为 CG 角色在实景场景中进行动画制作、照明和合成的 AI 工具。 | 动画 |
<span id="visual">视觉</span>
</SOURCE_TEXT>
来源 | 描述 | 论文 | 游戏引擎 | 类型 |
---|---|---|---|---|
Cambrian-1 | Cambrian-1:一个完全开放的、以视觉为中心的多模态大型语言模型的探索。 | arXiv | 多模态 LLM | |
CogVLM2 | 基于 Llama3-8B 的 GPT4V 级开源多模态模型。 | 视觉 | ||
CoTracker | 更好的一起跟踪。 | arXiv | 视觉 | |
EVF-SAM | EVF-SAM:用于文本提示的分割模型的早期视觉-语言融合。 | arXiv | 视觉 | |
FaceHi | 更好的一起跟踪。 | 视觉 | ||
InternLM-XComposer2 | InternLM-XComposer2 是一个突破性的视觉-语言大模型(VLLM),在自由形式的文本-图像组合和理解中表现优异。 | arXiv | 视觉 | |
Kangaroo | Kangaroo:支持长时间视频输入的强大视频-语言模型。 | 视觉 | ||
LGVI | 通过多模态大型语言模型实现语言驱 动的视频修复。 | 视觉 | ||
LLaVA++ | 使用 LLaMA-3 和 Phi-3 扩展视觉能力。 | 视觉 | ||
LongVA | 从语言到视觉的长上下文转移。 | arXiv | 视觉 | |
MaskViT | 用于视频预测的掩码视觉预训练。 | arXiv | 视觉 | |
MiniCPM-Llama3-V 2.5 | 您手机上的 GPT-4V 级 MLLM。 | 视觉 | ||
MoE-LLaVA | 大规模视觉-语言模型的专家混合模型。 | arXiv | 视觉 | |
MotionLLM | 从人体动作和视频中理解人类行为。 | arXiv | 视觉 | |
PLLaVA | 从图像到视频的无参数扩展,用于视频密集标题生成。 | arXiv | 视觉 | |
Qwen-VL | 一个多功能的视觉-语言模型,用于理解、本地化、文本阅读等。 | arXiv | 视觉 | |
ShareGPT4V | 通过更好的标题改进大型多模态模型。 | arXiv | 视觉 | |
SOLO | SOLO:用于可扩展视觉-语言建模的单一 Transformer。 | arXiv | 视觉 | |
Video-CCAM | Video-CCAM:通过因果交叉注意力掩码推进视频-语言理解。 | 视觉 | ||
Video-LLaVA | 在投影之前通过对齐学习统一视觉表示。 | arXiv | 视觉 | |
VideoLLaMA 2 | 在视频 LLMs 中推进时空建模和音频理解。 | arXiv | 视觉 | |
Video-MME | 第一个关于视频分析的多模态 LLMs 全面评估基准。 | arXiv | 视觉 | |
Vitron | 用于理解、生成、分割、编辑的统一像素级视觉 LLM。 | 视觉 | ||
VILA | VILA:关于视觉语言模型的预训练。 | arXiv | 视觉 |
<span id="video">视频</span>
来源 | 描述 | 论文 | 游戏引擎 | 类型 |
---|---|---|---|---|
360DVD | 基于360度视频扩散模型的可控全景视频生成。 | arXiv | 视频 | |
Animate-A-Story | 通过增强检索的视频生成来讲故事。 | arXiv | 视频 | |
Anything in Any Scene | 真实感视频对象插入。 | 视频 | ||
ART•V | 用扩散模型进行自回归文本到视频生成。 | arXiv | 视频 | |
Assistive | 生成性视频平台,让你的创意变成现实。 | 视频 | ||
AtomoVideo | 高保真图像到视频生成。 | arXiv | 视频 | |
BackgroundRemover | 背景移除器,可使用AI通过简单的命令行界面从图像和视频中移除背景,且免费开源。 | 视频 | ||
Boximator | 为视频合成生成丰富且可控的动作。 | arXiv | 视频 | |
CoDeF | 用于时间一致性视频处理的内容变形场。 | arXiv | 视频 | |
CogVideo | 根据文本描述生成视频。 | 视频 | ||
CogVideoX | CogVideoX 是视频生成模型的开源版本,同源于清影。 | 视频 | ||
CogVLM | CogVLM 是一个强大的开源视觉语言模型 (VLM)。 | 视觉 | ||
CoNR | 从手绘动漫角色表 (ACS) 中生成生动的舞蹈视频。 | arXiv | 视频 | |
Decohere | 创造无法拍摄的内容。 | 视频 | ||
Descript | Descript 是一种简单、强大且有趣的编辑方式。 | 视频 | ||
Diffutoon | 通过扩散模型进行高分辨率可编辑卡通渲染。 | arXiv | 视频 | |
dolphin | 基于大语言模型的一般视频互动平台。 | 视频 | ||
DomoAI | 借助DomoAI放大你的创造力。 | 视频 | ||
DynamiCrafter | 利用视频扩散先验动画开放领域图像。 | arXiv | 视频 | |
EDGE | 我们介绍EDGE,一种强大的可编辑舞蹈生成方法,能够创建逼真且物理上合理的舞蹈,并且能够忠实于任意输入音乐。 | arXiv | 视频 | |
EMO | Emote Portrait Alive - 通过Audio2Video扩散模型在弱条件下生成表情丰富的肖像视频。 | arXiv | 视频 | |
Emu Video | 通过显式图像条件化对文本到视频生成进行因子化。 | 视频 | ||
Etna | Etna 可以基于简短的文本描述生成相应的视频内容。 | 视频 | ||
Fairy | 快速并行化的指令导向视频到视频合成。 | 视频 | ||
Follow Your Pose | 使用无姿势视频进行姿势引导的文本到视频生成。 | arXiv | 视频 | |
FullJourney | 完整的AI创作工具套件。 | 视频 | ||
Gen-2 | 多模态的AI系统,可以使用文本、图像或视频片段生成新视频。 | 视频 | ||
Generative Dynamics | 生成性图像动态。 | 视频 | ||
Genie | 生成性互动环境 。 | arXiv | 视频 | |
Genmo | 用AI魔法般地制作视频。 | 视频 | ||
GenTron | 用扩散变压器进行图像和视频生成。 | 视频 | ||
HiGen | 文本到视频生成的层次化时空解耦。 | 视频 | ||
Hotshot-XL | Hotshot-XL 是一个AI文本到GIF模型,训练目的是与稳定扩散XL协同工作。 | 视频 | ||
Imagen Video | 给定文本提示,Imagen Video 使用基础视频生成模型和一系列交替的空间和时间视频超分辨率模型生成高清视频。 | 视频 | ||
InstructVideo | 使用人为反馈指导视频扩散模型。 | arXiv | 视频 | |
I2VGen-XL | 通过级联扩散模型进行高质量图像到视频合成。 | arXiv | 视频 | |
LaVie | 使用级联潜在扩散模型进行高质量视频生成。 | arXiv | 视频 | |
LTX Studio | LTX Studio 是一个为创作者、营销人员、电影制片人和工作室提供的全面的AI驱动电影制作平台。 | 视频 | ||
Lumiere | 用于视频生成的时空扩散模型。 | arXiv | 视频 | |
LVDM | 用于高保真长视频生成的潜在视频扩散模型。 | arXiv | 视频 | |
MagicVideo | 用潜在扩散模型高效视频生成。 | arXiv | 视频 | |
MagicVideo-V2 | 多阶段高美学视频生成。 | arXiv | 视频 | |
Magic Hour | 简化了的创作者AI视频制作。 | 视频 | ||
MAGVIT-v2 | 分词器是视觉生成的关键。 | 视频 | ||
MAGVIT | 蒙版生成视频变压器。 | 视频 | ||
Make-A-Video | Make-A-Video 是最先进的AI系统,可以从文本生成视频。 | arXiv | 视频 | |
Make Pixels Dance | 高动态视频生成。 | arXiv | 视频 | |
Make-Your-Video | 使用文本和结构指导进行定制视频生成。 | arXiv | 视频 | |
MicroCinema | 用于文本到视频生成的分而治之方法。 | arXiv | 视频 | |
Mini-Gemini | 挖掘多模态视觉语言模型的潜力。 | 视觉 | ||
MobileVidFactory | 基于扩散的社交媒体视频自动生成,应用于移动设备的文本。 | 视频 | ||
MOFA-Video | 基于固定图片到视频扩散模型中的生成运动场适应来控制图像动画。 | arXiv | 视频 | |
MoneyPrinterTurbo | 使用大模型一键生成短视频。 | 视频 | ||
Moonvalley | Moonvalley 是一个开创性的文本到视频生成 AI 模型。 | 视频 | ||
Mora | 类似于 Sora 的通用视频生成器。 | arXiv | 视频 | |
Morph Studio | 用我们的文本到视频 AI 魔法,通过提示展现你的创造力。 | 视频 | ||
MotionCtrl |