Project Icon

ai-game-devtools

AI游戏开发工具的最新动向和详情

关注最新的AI游戏开发工具,如大型语言模型(LLM)、自主Agent、代码生成、写作助手、图片生成、纹理处理、着色器、3D模型、动画、视频、音频、音乐、歌声和数据分析。项目包括AgentGPT、AICommand、Auto-GPT、BabyAGI、ChatGPT-API-unity等。支持Unity和Unreal Engine的专用集成工具,还提供多种开源项目和学术研究链接,帮助开发者高效创建和优化AI驱动的游戏内容。

AI 游戏开发工具(AI-GDT) 🎮

AI-Game

在这里,我们将跟踪最新的 AI 游戏开发工具,包括 LLM、代理(Agent)、代码、写作、图像、纹理、着色器、3D 模型、动画、视频、音频、音乐、歌声和分析。🔥

目录

项目列表

工具(AI LLM)

来源描述论文引擎类型
AgentGPT🤖 在您的浏览器中组装、配置和部署自主AI代理。工具
AICommandUnity 编辑器与 ChatGPT 集成。Unity工具
AIOS大模型代理操作系统。工具
Assistant CLI使用 ChatGPT 服务的便捷命令行工具🔥工具
Auto-GPT一种实验性的开源尝试,旨在使 GPT-4 完全自主。工具
BabyAGI此 Python 脚本是一个 AI 驱动的任务管理系统示例。工具
👶🤖🖥️ BabyAGI UIBabyAGI UI 的设计是为了更容易在 web 应用程序中运行和开发 babyagi,如同 ChatGPT 一样。工具
baichuan-7B百川科技开发的大规模 7B 预训练语言模型。工具
Baichuan-13B百川智能科技开发的 13B 大型语言模型。工具
Baichuan 2百川智能科技开发的一系列大型语言模型。工具
Bisheng笔胜是一个开源的大模型开发运维平台,用于下一代AI应用。工具
Character-LLM一个用于角色扮演的可训练代理。arXiv工具
ChatDev软件开发中用的通讯代理。arXiv工具
ChatGPT-API-unity将 ChatGPT 聊天完成 API 绑定到 Unity 上的纯 C# 代码中。Unity工具
ChatGPTForUnity用于 Unity 的 ChatGPT。Unity工具
ChatRWKVChatRWKV 类似于 ChatGPT,但由 RWKV(100% RNN)语言模型驱动,并且是开源的。工具
ChatYuan面向中英文对话的大型语言模型。工具
Chinese-LLaMA-Alpaca-3基于 Meta Llama 3 开发的中文Llama-3大型语言模型。工具
Chrome-GPT一个控制您桌面上 Chrome 浏览器的 AutoGPT 代理。工具
CogVLMCogVLM,一个强大的开源视觉语言基础模型。arXiv工具
CoreNet用于训练深度神经网络的库。工具
DBRXDBRX 是由 Databricks 训练的大型语言模型。工具
DCLM用于语言模型的数据竞赛。arXiv工具
DemoGPT使用 Llama 2 的力量自动生成 AI 应用程序。工具
Design2Code自动化前端工程。工具
DevikaDevika 是一个代理型 AI 软件工程师。工具
Devon一个开源的配对编程助手。工具
Dora一次性生成强大的网站。工具
Flowise拖放 UI 构建您的自定义 LLM 流程使用 LangchainJS。工具
GeminiGemini 从头开始为多模态而建——无缝地在文本、图像、视频、音频和代码之间进行推理。工具
GemmaGemma 是一组轻量级、最先进的开源模型,基于创建 Google Gemini 模型的研究和技术。工具
gemma.cppGoogle 的 Gemma 模型的轻量级、独立的 C++ 推理引擎。工具
GLM-4GLM-4-9B 是由智谱 AI 推出的 GLM-4 系列最新一代预训练模型的开源版本。工具
GPT4All一个训练在大量干净的助手数据(包括代码、故事和对话)上的聊天机器人。工具
GPT-4oGPT-4o(“o”代表“omni”)是实现更自然人机交互的一步——它接受任何文本、音频、图像和视频的组合输入,并生成任何文本、音频和图像的组合输出。工具
GPTScript用自然语言开发大模型应用。工具
Grok-1我们的 3140 亿参数专家混合模型 Grok-1 的权重和架构。工具
HuggingChat让社区最好的 AI 聊天模型人人可用。工具
Hugging Face API Unity Integration此 Unity 包提供了 Hugging Face 推理 API 的易于使用的集成,允许运营商在其 Unity 项目中访问和使用 Hugging Face AI 模型。Unity工具
ImageBindImageBind 一个嵌入空间绑定所有。arXiv工具
Index-1.9B一个最先进的轻量级多语种大语言模型。工具
InteractML-UnityInteractML,一个用于 Unity3D 的可视化脚本框架。Unity工具
InteractML-Unreal Engine将机器学习带入虚幻引擎。Unreal Engine工具
InternLMInternLM 已经开源了一个 70 亿参数基础模型,一个适应实际场景的聊天模型和训练系统。arXiv工具
InternLM-XComposerInternLM-XComposer2 是一个突破性的视觉语言大模型(VLLM),擅长自由形式的文本-图像组合与理解。arXiv工具
Jan将AI带到您的桌面。工具
LaminiLamini 让任何工程团队通过 RLHF 和在自己的数据上进行微调来超越通用的大规模语言模型。工具
LaMini-LMLaMini-LM 是从 ChatGPT 蒸馏并在大规模 2.58M 指令数据集上训练的小型高效语言模型集合。工具
LangChainLangChain 是一个用于开发大语言模型驱动的应用程序的框架。工具
LangFlow⛓️ LangFlow 是一个 LangChain 的 UI,使用 react-flow 提供一种轻松实验和原型制作流的方法。工具
LaVague使用大型动作模型框架自动化自动化流程。工具
Lemur开源语言代理基础模型。工具
Lepton AI一个简化AI服务构建的Python框架。工具
Lit-LLaMA基于nanoGPT的LLaMA语言模型实现。支持闪存注意力、Int8和GPTQ 4位量化、LoRA和LLaMA-Adapter微调和预训练。工具
llama2-webui在任何地方(Linux/Windows/Mac)使用gradio UI在GPU或CPU上本地运行Llama 2。工具
Llama 3官方的Meta Llama 3 GitHub站点。工具
Llama 3.1Llama是一种对开发者、研究者和企业开放的大型语言模型(LLM),旨在构建、实验和负责任地扩展他们的生成AI创意。工具
LLaSM大型语言和语音模型。工具
LLM Answer Engine使用Next.js、Groq、Mixtral、Langchain、OpenAI、Brave和Serper构建一个受Perplexity启发的答案引擎。工具
llm.c使用简单、原生的C/CUDA进行LLM训练。工具
LLMUnity在Unity中创建具有LLM的角色!Unity工具
LLocalSearchLLocalSearch是一种完全本地运行的使用LLM代理的搜索引擎。工具
LogicGamesSolver一个使用AI、深度学习和计算机视觉解决逻辑游戏的Python工具。工具
Large World Model (LWM)Large World Model (LWM)是一种通用的大背景多模式自回归模型。arXiv工具
Lumina-T2XLumina-T2X是一种统一的文本到各种模式生成框架。arXiv工具
MetaGPT多代理框架工具
MiniCPM-2B一种终端侧LLM,可超越Llama2-13B。工具
MiniGPT-4使用先进的大型语言模型增强视觉-语言理解。arXiv工具
MiniGPT-5通过生成Vokens插入视觉和语言生成任务。arXiv工具
Mixtral 8x7B一种高质量的稀疏专家混合模型。arXiv工具
Mistral 7B迄今为止最好的7B模型,使用Apache 2.0许可。工具
Mistral LargeMistral Large是一种新的前沿文本生成模型,具有顶级推理能力。工具
MLC LLM使每个人都能够在自己的设备上开发、优化和部署AI模型。工具
MobiLlama向准确且轻量化的完全透明GPT迈进。arXiv工具
MoE-LLaVA大型视觉语言模型的专家混合。arXiv工具
MoshiMoshi是一种实验性的对话AI。工具
MOSS来自复旦大学的开源工具增强对话语言模型。工具
mPLUG-Owl🦉模块化赋能大型语言模型以实现多模式。arXiv工具
Nemotron-4一种具有150亿参数的大型多语言模型,训练在8万亿文本tokens上。arXiv工具
NExT-GPT任意到任意多模式大型语言模型。工具
OLMo开放语言模型arXiv工具
OmniLMM强大的多模式大型模型,具有高性能和高效部署。工具
OneLLM一种框架,将所有模式与语言对齐。arXiv工具
Open-AssistantOpenAssistant是一种聊天助手,可以理解任务,能够与第三方系统交互,并动态检索信息以完成任务。工具
OpenDevin自主AI软件工程师。工具
Orion-14BOrion-14B是一系列模型,包括一个14B基础LLM和一系列其他模型。arXiv工具
Panda海外华人开源的大型语言模型,基于Llama-7B、-13B、-33B、-65B在中文领域进行持续预训练。工具
Perplexica一个AI驱动的搜索引擎。工具
Pi专用于个人协助和情感支持的AI聊天机器人。工具
Qwen1.5Qwen1.5是Qwen的改进版。工具
Qwen2Qwen2是由Qwen团队开发的大型语言模型系列,阿里云提供。工具
Qwen-7B阿里云提出的Qwen-7B(通义千问-7B)聊天和预训练大型语言模型的官方版本库。工具
RepoAgentRepoAgent是一个由大型语言模型(LLMs)驱动的开源项目,旨在提供一种智能方式来记录项目。arXiv工具
Sanity AI EngineUnity游戏开发工具的Sanity AI引擎。Unity工具
SearchGPT🌳 将ChatGPT连接到互联网工具
ShareGPT4V通过更好的描述提升大型多模式模型。工具
SkyworkSkywork系列模型在高质量的多语言(主要是中文和英文)和代码数据的3.2TB数据上进行预训练。工具
StableLMStability AI语言模型。arXiv工具
Stanford Alpaca一种遵循指令的LLaMA模型。工具
Text generation web UI用于运行大型语言模型(如LLaMA、llama.cpp、GPT-J、OPT和GALACTICA)的gradio网络UI。工具
TinyChatEngine设备上的LLM推理库。工具
ToolBench一个用于训练、服务和评估大型语言模型的开放平台,专注于工具学习。工具
Unity ChatGPTUnity ChatGPT 实验.Unity工具
Unity OpenAI-API Integration将openai GPT-3语言模型和ChatGPT API集成到Unity项目中.Unity工具
Unreal Engine 5 Llama LoRA一个概念验证项目,展示了使用小型本地可训练LLM创建下一代文档工具的潜力.Unreal Engine工具
UnrealGPT一组由GPT3/4驱动的Unreal Engine 5编辑器实用程序小部件.Unreal Engine工具
Video-LLaVA通过对齐前的投影学习统一的视觉表示.arXiv工具
WebGPT使用WebGPU在浏览器上运行GPT模型.工具
Web3-GPT使用AI部署智能合约.工具
WordGPT🤖 将ChatGPT的强大功能带到Microsoft Word.工具
XAgent一个用于解决复杂任务的自主LLM代理.工具
Yi一系列从头开始由开发者训练的大型语言模型.工具
01 Project开源语言模型计算机.工具

^ 返回目录 ^

游戏 (代理)

来源描述论文游戏引擎类型
AgentBench一个全面的基准,用于评估大型语言模型(Large Language Models, LLMs)作为代理的表现。arXiv代理
Agent Group Chat用于更好地引导集体涌现行为的交互式群聊模仿。arXiv代理
AgentScope更容易地开始构建由LLM赋能的多代理应用程序。arXiv代理
AgentSims一个开源沙箱,用于大型语言模型的评估。代理
AI TownAI Town是一个虚拟小镇,其中AI角色生活、聊天和社交。代理
anime.gfCharacterAI的本地和开源替代品。游戏
Astrocade使用AI创建游戏。游戏
Atomic AgentsAtomic Agents框架设计为模块化、可扩展且易于使用。代理
AutoAgents自动代理生成框架。代理
AutoGen启用下一代大型语言模型应用程序。arXiv代理
behaviacBehaviac是一个游戏AI开发框架。框架
BiomesBiomes是使用Web技术,例如Next.js、Typescript、React和WebAssembly,为Web而构建的开源沙盒MMORPG。游戏
Buffer of Thoughts使用大型语言模型的思维增强推理。arXiv代理
Byzer-Agent一个为所有人设计的简单、快速和分布式代理框架。代理
Cat Town一个由C(h)atGPT驱动的猫咪模拟游戏。代理
CharacterGLM使用大型语言模型自定义中文对话AI角色。arXiv代理
ChatDev用于软件开发的通信代理。arXiv代理
CogAgentCogAgent是一个基于CogVLM改进的开源视觉语言模型。arXiv代理
Cradle面向通用计算机控制。代理
crewAI用于编排角色扮演、自主AI代理的框架。代理
DifyDify是一个开源的LLM应用构建平台。代理
Digital Life Project拥有社会智能的自主3D角色。arXiv代理
everything-ai您完全熟练、由AI驱动的本地聊天助手🤖。代理
fabricfabric是一个开源框架,用于使用AI增强人类能力。代理
FastGPTFastGPT是一个基于LLM的知识平台。代理
fastRAG高效的检索增强生成框架。代理
GameAISDK基于图像的游戏AI自动化框架。框架
Generative Agents人类行为的交互模拟。arXiv代理
Genie生成式交互环境。游戏
gigax运行时,LLM驱动的NPC。游戏
HippoRAG神经生物学启发的大型语言模型的长期记忆。arXiv代理
Interactive LLM Powered NPCs互动的LLM驱动的NPC,是一个开源项目,彻底改变您与任何游戏中NPC的互动!游戏
IoA一个开源框架,用于协作AI代理,使多样化、分布式的代理能够通过类似互联网的连接合作并解决复杂任务。代理
KwaiAgents一个由大型语言模型(LLMs)驱动的通用信息搜索代理系统。arXiv代理
LangChain从原型到生产,完成您的LLM应用。代理
LangflowLangflow是LangChain的用户界面,使用react-flow设计,提供了一种轻松实验和原型流的方式。代理
LangGraph StudioLangGraph Studio提供了一种新的方法来开发LLM应用程序,通过提供专用代理IDE,允许可视化、交互和调试复杂的代理应用程序。代理
LARP用于开放世界游戏的语言代理角色扮演。arXiv代理
LLama Agentic SystemLlama堆栈API的代理组件。代理
LlamaIndexLlamaIndex是您的LLM应用的数据框架。代理
MindSearch🔍一个基于LLM的多代理Web搜索引擎框架(类似于Perplexity.ai Pro和SearchGPT)。代理
Mixture of Agents (MoA)代理混合增强大型语言模型的能力。arXiv代理
MMRoleMMRole:开发和评估多模态角色扮演代理的综合框架。arXiv代理
Moonlander.ai使用生成式AI开始构建3D游戏,而无需任何编码。框架
MuG DiffusionMuG Diffusion是基于稳定扩散(最强大的AIGC模型之一)的节奏游戏制谱AI,进行了大量修改以结合音频波。游戏
OmAgent一个用于解决复杂任务的多模态代理框架。代理
OpenAgents野外语言代理的开放平台。代理
Opus一个将文本变成视频游戏的AI应用程序。游戏
Pipecat用于语音和多模态对话AI的开源框架。代理
Qwen-AgentQwen-Agent是一个框架,用于基于Qwen的指令跟随、工具使用、规划和记忆能力,开发LLM应用程序。代理
RagasRagas是一个框架,可以帮助您评估检索增强生成(RAG)管道。代理
SIMA用于3D虚拟环境的通用AI代理。代理
StoryGames.ai梦想家的AI用来制作游戏。游戏
SWE-agent代理计算机接口使软件工程语言模型成为可能。arXiv代理
TaskGen一个基于任务的框架,通过LLM代理产生StrictJSON输出。代理
Translation Agent使用反思工作流程进行代理翻译。代理
Video2Game从单个视频中创建实时、互动、逼真且兼容浏览器的环境。arXiv游戏
V-IRL将虚拟智能落地于现实生活中。arXiv代理
WebDesignAgent用于网页设计的代理。代理
XAgent用于复杂任务解决的自主LLM代理。代理

^ 返回目录 ^

代码

来源描述论文游戏引擎类别
AI Code Translator使用 AI 将代码从一种语言翻译到另一种语言。代码
aiXcoder-7BaiXcoder-7B 大型语言模型。代码
bloopbloop 是一个用 Rust 编写的快速代码搜索引擎。代码
ChapyterJupyter 笔记本中的 ChatGPT 代码解释器。代码
CodeGeeX一个开放的多语言代码生成模型。arXiv代码
CodeGeeX2一个更强大的多语言代码生成模型。代码
CodeGeeX4CodeGeeX4: 开放的多语言代码生成模型。代码
CodeGenCodeGen 是一个用于程序综合的开源模型。基于 TPU-v4 训练,与 OpenAI Codex 竞争。arXiv代码
CodeGen2CodeGen2 模型用于程序综合。arXiv代码
Code LlamaCode Llama 是一个基于 Llama 2 的大型代码语言模型。代码
CodeTF用于最先进代码大型语言模型的一站式 Transformer 库。代码
CodeT5用于代码理解和生成的开源代码大型语言模型。代码
Cursor在一种新型编辑器中用 GPT-4 编写、编辑和聊天代码。代码
OpenAI CodexOpenAI Codex 是 GPT-3 的后代。代码
PandasAIPandas AI 是一个 Python 库,将生成性人工智能功能集成到 Pandas 中,使数据框架具有会话能力。代码
RobloxScripterAIRobloxScripterAI 是一个为 Roblox 生成代码的 AI 工具。Roblox代码
Scikit-LLM无缝集成强大的语言模型(如 ChatGPT)到 scikit-learn 中以增强文本分析任务。代码
SoTaNa开源软件开发助手。arXiv代码
Stable Code 3B边缘计算中的编码。代码
StarCoder💫 StarCoder 是一个在源代码和自然语言文本上训练的语言模型。arXiv代码
StarCoder 2StarCoder2 是一系列代码生成模型(3B, 7B, 15B),在 600 多种编程语言和一些自然语言文本(如 Wikipedia, Arxiv, 和 GitHub issues)上训练。arXiv代码
UnityGen AIUnityGen AI 是一个用于 Unity 的 AI 代码生成插件。Unity代码

^ 返回目录 ^

写作

来源描述论文游戏引擎类别
AI-WriterAI 编写小说,生成奇幻和浪漫网络文章等。中文预训练生成模型。写作
Notebook.aiNotebook.ai 是一套为作家、游戏设计师和角色扮演者创建宏大宇宙及其一切内容的工具。写作
NovelNotion 风格 WYSIWYG 编辑器,具有 AI 驱动的自动补全功能。写作
NovelAI由 AI 驱动,轻松构建独特的故事、激动人心的故事、诱人的浪漫故事,或只是随便玩玩。写作

^ 返回目录 ^

图像

来源描述论文游戏引擎类型
AnyDoor零样本对象级图像定制。arXiv图像
AnyText多语言视觉文本生成与编辑。arXiv图像
AutoStudio在多轮交互图像生成中制作一致的主体。arXiv图像
Blender-ControlNet在Blender中使用ControlNet。Blender图像
BriVL连接视觉和语言模型。arXiv图像
CatVTONCatVTON:虚拟试穿所需的全部是扩散模型的串联。arXiv图像
CLIPasso一种将物体图像转换为草图的方法,允许不同程度的抽象。arXiv图像
ClipDrop秒级创建惊艳视觉效果。图像
ComfyUI一个功能强大、模块化的稳定扩散图形用户界面,具有图表/节点界面。图像
ConceptLab使用扩散先验约束进行创意生成。arXiv图像
ControlNetControlNet是通过添加额外条件来控制扩散模型的神经网络结构。arXiv图像
DALL·E 2DALL·E 2是一个可以根据自然语言描述创建逼真图像和艺术作品的AI系统。图像
Dashtoon StudioDashtoon Studio是一个由AI供能的漫画创作平台。漫画
DeepAIDeepAI提供一套利用AI增强创意的工具。图像
DeepFloyd IFIF由StabilityAI的DeepFloyd实验室开发。图像
Depth Anything V2Depth Anything V2arXiv图像
Depth map library and poser与Automatic1111/stable-diffusion-webui的Control Net扩展一起使用的深度图库。图像
Diffuse to Choose丰富潜在扩散模型中的图像缝合条件,为虚拟全试提供方案。arXiv图像
Disco Diffusion用于生成AI艺术和动画的工具组合,由各种笔记本电脑、模型和技巧组成的集成系统。图像
DragGAN生成图像中的基于点的交互式操控。arXiv图像
Draw Things口袋中的AI辅助图像生成。图像
DWPose通过两阶段蒸馏进行有效的全身姿态估计。arXiv图像
EasyPhoto你的智能AI照片生成器。图像
Flux此存储库包含使用我们的Flux潜在校正流变换器进行文本图像和图像图像生成的最低推理代码。图像
Follow-Your-Click通过短提示进行开放域区域图像动画。arXiv图像
Fooocus专注于提示和生成。图像
GIFfusion使用稳定扩散创建GIF和视频。图像
Grounded-Segment-Anything自动检测、分割和生成图像、文本和音频输入中的所有内容。arXiv图像
HuaHua是一个使用稳定扩散(及其他)的AI图像编辑器。图像
Hunyuan-DiT具有细粒度中文理解能力的多分辨率强大扩散变压器。arXiv图像
IC-LightIC-Light是一个操控图像光照项目。图像
Ideogram帮助人们变得更有创造力。图像
ImagenImagen是一个从输入文本创建写实图像的AI系统。图像
img2img-turbo一步图像到图像转换,使用SD-Turbo。图像
Img2Prompt从稳定扩散生成的图像中获取提示。图像
InstantID零样本身份保持生成,秒级完成。arXiv图像
InternLM-XComposer2InternLM-XComposer2是一个突破性的视觉语言大模型(VLLM),在自由格式文本图像合成和理解方面表现出色。arXiv图像
KOALA在内存高效和快速图像合成的扩散模型知识蒸馏中,自注意力重要。图像
KolorsKolors:有效的写实文本到图像合成扩散模型训练方法。图像
KREA使用令人愉悦的AI设计工具生成图像和视频。图像
LaVi-Bridge连接不同语言模型和生成视觉模型进行文本到图像生成。arXiv图像
LayerDiffusion使用潜在透明度进行透明图像层扩散。arXiv图像
Lexica一个稳定扩散提示搜索引擎。图像
LlamaGen自回归模型击败扩散:Llama用于可扩展图像生成。arXiv图像
MetaShootMetaShoot是一个照片棚的数字双胞胎,作为虚幻引擎的插件开发,给予任何创作者以最简单和最快的方式制作高度逼真渲染的能力。Unreal Engine图像
MidjourneyMidjourney是一个独立的研究实验室,探索新思维媒介并扩展人类的想象力。图像
MIGCMIGC:多实例生成控制器用于文本到图像合成。arXiv图像
MimicBrush通过参考模仿进行零样本图像编辑。arXiv图像
OmostOmost是一个将LLM编码能力转换为图像生成(更准确地说是图像合成)能力的项目。图像
Openpose EditorAUTOMATIC1111's stable-diffusion-webui的Openpose编辑器。图像
Outfit Anyone超高质量的虚拟试穿,适用于任何服装和任何人。图片
PaintsUndoPaintsUndo: 数字绘画行为的基本模型。图片
PhotoMaker通过堆叠ID嵌入定制逼真的人类照片。arXiv图片
PhotoroomAI背景生成器。图片
Plask云端AI图像生成。图片
Prompt.Art生成器中心。图片
PuLID通过对比对齐实现纯净和闪电般的ID定制。arXiv图片
Rich-Text-to-Image使用丰富文本的表达性文本到图像生成。arXiv图片
RPG-DiffusionMaster掌握文本到图像扩散:重生成、规划和通过多模态LLM进行生成。图片
SEED-StorySEED-Story: 使用大型语言模型生成多模态长篇故事。arXiv图片
Segment AnythingSegment Anything Model (SAM): 来自Meta AI的新AI模型,可以在任何图像中通过单击“剪切”任何对象。arXiv图片
Segment Anything Model 2 (SAM 2)SAM 2: 在图像和视频中分割任何事物。arXiv图片
sd-webui-controlnetControlNet的WebUI扩展插件。图片
SDXL-Lightning渐进式对抗扩散蒸馏。arXiv图片
SDXS具有图像条件的实时一步潜在扩散模型。图片
Stable.art以Automatic1111为后端的Stable Diffusion的Photoshop插件(本地或使用Google Colab)。图片
Stable CascadeStable Cascade由三个模型组成:Stage A、Stage B和Stage C,代表生成图像的级联过程,因此命名为“Stable Cascade”。图片
Stable Diffusion潜在的文本到图像扩散模型。图片
stable-diffusion.cpp纯C/C++的Stable Diffusion。图片
Stable Diffusion web UI基于Gradio库的Stable Diffusion浏览器界面。图片
Stable Diffusion web UI基于Web的Stable Diffusion用户界面。图片
Stable Diffusion WebUI Chinese中文版Stable Diffusion WebUI。图片
Stable Diffusion XL从文本生成图像。arXiv图片
Stable Diffusion XL Turbo实时文本到图像生成。图片
Stable DoodleStable Doodle是一款从草图到图像的工具,可以将简单的绘画转化为动态图像。图片
StableStudio由Stability AI开发的StableStudio。图片
StreamDiffusion实时互动生成的流程级解决方案。图片
StyleDrop任何风格的文本到图像生成。arXiv图片
SyncDreamer从单视图图像生成多视图一致的图像。arXiv图片
UltraEditUltraEdit: 基于指令的大规模细粒度图像编辑。arXiv图片
UltraPixelUltraPixel: 将超高分辨率图像合成推向新高峰。arXiv图片
Unity ML Stable DiffusionUnity上的核心ML Stable Diffusion。Unity图片
Vispunk Visions文本到图像生成平台。图片

^ 返回目录 ^

纹理

来源描述论文游戏引擎类型
CRM使用卷积重建模型将单张图像转化为3D纹理网格。arXiv纹理
DreamMat利用几何和光照感知扩散模型生成高质量的PBR材质。arXiv纹理
DreamSpace使用文本驱动的全景纹理传播,梦想到你的房间空间。纹理
Dream Textures集成在Blender中的稳定扩散。使用简单的文本提示制作纹理、概念艺术、背景资产等。Blender纹理
InstructHumans利用指令编辑动画3D人类纹理。arXiv纹理
InteX通过统一的深度感知修复进行交互式文本到纹理合成。arXiv纹理
MaterialSeg3DMaterialSeg3D: 从2D先验中分割3D资产的密集材质。arXiv纹理
MeshAnythingMaterialSeg3D: 从2D先验中分割3D资产的密集材质。arXiv网格
Neuralangelo高保真神经表面重建。arXiv纹理
Paint-it通过深度卷积纹理图优化和物理基础渲染进行文本到纹理合成。纹理
Polycam只需输入文字即可创建自己的3D纹理。纹理
TexFusion使用文本引导的图像扩散模型合成3D纹理。arXiv纹理
Text2Tex通过扩散模型进行文本驱动的纹理合成。arXiv纹理
Texture LabAI生成的纹理。你可以使用文本提示生成自己的纹理。纹理
With Poly使用Poly创建纹理。使用AI在免费的在线编辑器中生成3D材质,或搜索我们不断增长的社区库。纹理
X-MeshX-Mesh: 通过动态文本指导实现快速准确的文本驱动3D风格化。arXiv纹理

^ 返回目录 ^

着色器

来源描述论文游戏引擎类型
AI Shader基于ChatGPT的Unity着色器生成器。Unity着色器

^ 返回目录 ^

3D模型

来源描述论文游戏引擎类型
Anything-3DSegment-Anything + 3D。让任何东西提升到3D。arXiv模型
Any2PointAny2Point:使任何模态的大型模型能够高效理解3D。arXiv3D
BlenderGPT使用英语命令通过OpenAI的GPT-4控制Blender。Blender模型
Blender-GPT集成GPT3/4和Whisper的全能Blender助手。Blender模型
Blockade Labs使用Skybox Lab通过文本提示生成令人难以置信的360°天空盒体验的终极AI解决方案,数字炼金术变为现实。模型
CF-3DGSCOLMAP-Free 3D Gaussian Splatting。arXiv3D
CharacterGenCharacterGen:通过多视角姿态规范化从单个图像中高效生成3D角色。arXiv3D
chatGPT-maya一个简单的Maya工具,利用开放AI根据描述性指令执行基本任务。Maya模型
CityDreamer无限3D城市的组合生成模型。arXiv3D
CSM从图像和视频生成3D世界。3D
Dash您在Unreal Engine中建立世界的副驾驶。Unreal Engine3D
DreamCatalystDreamCatalyst:通过控制可编辑性和身份保护进行快速和高质量的3D编辑。arXiv3D
DreamGaussian4D生成式4D高斯散点。arXiv4D
DUSt3R简化几何3D视觉。arXiv3D
GALA3DGALA3D:通过布局引导的生成高斯散点实现文本到复杂3D场景的生成。arXiv3D
GaussCtrlGaussCtrl:多视角一致的文本驱动3D高斯散点编辑。arXiv3D
GaussianCube适用于3D生成建模的结构化和明确的辐射表示。arXiv3D
GaussianDreamer通过点云先验实现从文本到3D高斯点云的快速生成。arXiv3D
GenieLabs用AI-UGC增强您的游戏。3D
HiFA高保真文本到3D,具有先进的扩散指导。模型
HoloDreamerHoloDreamer:从文本描述生成整体3D全景世界。arXiv3D
Infinigen使用程序生成无限的逼真世界。arXiv3D
Instruct-NeRF2NeRF通过指令编辑3D场景。arXiv模型
Interactive3D通过交互3D生成创建您想要的内容。arXiv3D
Isotropic3D基于单个CLIP嵌入的图像到3D生成。3D
LATTE3D大规模委托文本到增强3D的合成。arXiv3D
LION用于3D形状生成的潜在点扩散模型。arXiv模型
Luma AI捕捉逼真的3D。无与伦比的逼真度、反射和细节。VFX的未来即现在,属于每个人!模型
lumine AIAI赋能的创造力。3D
Make-It-3D从单个图像生成高保真3D,使用扩散先验。arXiv模型
Meshy使用AI创建令人惊叹的3D游戏资产。3D
Mootion神奇的3D AI动画制作器。3D
MVDream多视角扩散用于3D生成。arXiv3D
NVIDIA Instant NeRF快速生成神经图形原语:闪电般快速的NeRF等。模型
One-2-3-45在45秒内从任意单个图像生成3D网格,无需每个形状的优化。arXiv模型
Paint3D使用无光照纹理扩散模型绘制任何3D内容。arXiv3D
PAniC-3D从动漫角色肖像的单视图进行风格化3D重建。arXiv模型
Point·E点云扩散用于3D模型合成。模型
ProlificDreamer使用变分评分蒸馏进行高保真和多样化的文本到3D生成。arXiv模型
SF3DSF3D:具有UV解包和光照解耦的稳定快速3D网格重建。arXiv3D
Shap-E基于文本或图像生成3D对象。arXiv模型
Sloyd3D建模从未如此简单。模型
Spline AIAI的力量来到第三维度。使用提示生成对象、动画和纹理。模型
Stable Dreamfusion文本到3D模型Dreamfusion的pytorch实现,基于文本到2D模型的稳定扩散。模型
SV3D使用潜在视频扩散技术从单个图像生成新颖的多视角合成和3D生成。arXiv3D
TafiAI文本转3D角色引擎。模型
3D-GPT使用大型语言模型进行程序化3D建模。arXiv3D
3D-LLM将3D世界注入大型语言模型中。arXiv3D
3Dpresso从视频中提取对象的3D模型。模型
3DTopia5分钟内生成3D模型。arXiv3D
threestudio一个统一的3D内容生成框架。模型
TripoSR从单张图像快速前馈3D重建的开源模型。arXiv模型
Unique3D从单张图像生成高质量且高效的3D网格。arXiv3D
UnityGaussianSplattingUnity中的玩具高斯喷射可视化。Unity3D
ViVid-1-to-3使用视频扩散模型的新视角合成。arXiv3D
Voxcraft使用AI打造可使用的3D模型。3D
Wonder3D使用跨域扩散从单张图像生成3D模型。arXiv3D
Zero-1-to-3零样本从单张图像生成3D对象。arXiv模型

^ 返回目录 ^

头像

来源描述论文游戏引擎类型
AniPortrait音频驱动的真实感头像动画合成。arXiv头像
CALM可操控虚拟角色的条件对抗潜在模型。arXiv头像
ChatAvatar在文本引导下逐步生成可动画的 3D 面孔。头像
ChatdollKitChatdollKit使您能够将 3D 模型转换为聊天机器人。Unity头像
DreamTalk当表情丰富的谈话头生成遇到扩散概率模型。arXiv头像
DuixDuix - 基于硅的数字人 SDK 🌐🤖头像
EchoMimicEchoMimic: 通过可编辑的标志条件实现的逼真的音频驱动肖像动画。arXiv头像
EMOPortraits加强情感的多模态单次头像。头像
E3 Gen高效、富有表现力且可编辑的头像生成。arXiv头像
GeneAvatar从单图像生成的通用表情感知体积头部头像编辑。arXiv头像
GeneFace++通用且稳定的实时3D谈话面孔生成。头像
Hallo用于肖像图像动画的分层音频驱动视觉合成。arXiv头像
HeadSculpt用文本制作3D头部头像。arXiv头像
IntrinsicAvatarIntrinsicAvatar: 通过显式光线追踪从单眼视频物理基础逆向渲染动态人类。arXiv头像
Linly-Talker数字头像对话系统。头像
LivePortraitLivePortrait: 通过拼接和重新定向控制实现高效肖像动画。arXiv头像
MotionGPT将人体运动视作外语,使用大型语言模型的统一运动语言生成模型。arXiv头像
MusePoseMusePose: 一个用于虚拟人类生成的姿态驱动图像到视频框架。头像
MuseTalk通过潜在空间修复实现的实时高质量唇部同步。头像
MuseV通过视觉条件并行降噪实现无限长度高保真虚拟人类视频生成。头像
Portrait4D使用合成数据学习单次4D头部头像合成。arXiv头像
Ready Player Me在几天内将可定制的头像集成到您的游戏或应用中。头像
RodinHDRodinHD: 使用扩散模型生成高保真3D头像。arXiv头像
StyleAvatar3D利用图像-文本扩散模型生成高保真3D头像。arXiv头像
Text2Control3D使用几何引导的图像到文本扩散模型生成可控的3D头像。arXiv头像
Topo4D拓扑保持高保真 4D 头部捕捉的高斯喷洒。arXiv头像
UnityAIWithChatGPT基于 Unity, 实现 ChatGPT+UnityChan 语音互动显示。Unity头像
Vid2Avatar通过自监督场景分解从野外视频重建3D头像。arXiv头像
VLOGGER用于化身合成的多模态扩散。头像
Wild2Avatar渲染遮挡背后的人类。arXiv头像

^ 返回目录 ^

动画

<SOURCE_TEXT>

来源描述论文游戏引擎类型
Animate Anyone一致且可控的图像到视频的角色动画合成。arXiv动画
AnimateAnything基于运动指导的精细开放域图像动画。arXiv动画
AnimateDiff无需特定调优,动画化个性化文本到图像扩散模型。arXiv动画
AnimateLCM通过四个步骤加速视频生成!arXiv动画
AnimateZero视频扩散模型是零样本图像动画生成器。arXiv动画
AnimationGPT一种用于生成游戏战斗动作素材的 AIGC 工具。动画
DeforumDeforum 利用稳定扩散技术生成不断演变的 AI 视觉效果。动画
DreaMoving基于扩散模型的人类视频生成框架。arXiv动画
FaceFusion下一代换脸和增强工具。动画
FreeInit在视频扩散模型中弥合初始化差距。arXiv动画
GeneFace广义和高保真音频驱动的 3D 说话人脸合成。arXiv动画
ID-Animator零样本身份保留的人类视频生成。arXiv动画
MagicAnimate使用扩散模型生成时间一致性的人类图像动画。arXiv动画
NUWADragNUWA 是一个开放域基于扩散的视频生成模型,可以将文本、图像和轨迹控制作为输入,实现可控视频生成。arXiv动画
NUWA-InfinityNUWA-Infinity 是一个多模态生成模型,可以根据给定的文本、图像或视频输入生成高质量图像和视频。动画
NUWA-XL一种用于极长视频生成的扩散建筑上的新型架构。动画
Omni AnimationAI 生成高保真动画。动画
PIA通过文本到图像模型中的即插即用模块实现个性化图像动画。arXiv动画
SadTalker学习逼真的 3D 运动系数以实现样式化音频驱动的单图像说话人像动画。arXiv动画
SadTalker-Video-Lip-Sync该项目基于 SadTalkers Wav2lip 实现视频唇形合成。动画
Stable Animation面向开发者的强大文本到动画工具。动画
TaleCrafter一个支持多个角色的互动故事可视化工具。arXiv动画
ToonCrafterToonCrafter:生成卡通插值。arXiv动画
Wav2Lip准确地在自然环境中实现视频唇形同步。arXiv动画
Wonder Studio一个自动为 CG 角色在实景场景中进行动画制作、照明和合成的 AI 工具。动画

^ 返回目录 ^

视觉

</SOURCE_TEXT>

来源描述论文游戏引擎类型
Cambrian-1Cambrian-1:一个完全开放的、以视觉为中心的多模态大型语言模型的探索。arXiv多模态 LLM
CogVLM2基于 Llama3-8B 的 GPT4V 级开源多模态模型。视觉
CoTracker更好的一起跟踪。arXiv视觉
EVF-SAMEVF-SAM:用于文本提示的分割模型的早期视觉-语言融合。arXiv视觉
FaceHi更好的一起跟踪。视觉
InternLM-XComposer2InternLM-XComposer2 是一个突破性的视觉-语言大模型(VLLM),在自由形式的文本-图像组合和理解中表现优异。arXiv视觉
KangarooKangaroo:支持长时间视频输入的强大视频-语言模型。视觉
LGVI通过多模态大型语言模型实现语言驱动的视频修复。视觉
LLaVA++使用 LLaMA-3 和 Phi-3 扩展视觉能力。视觉
LongVA从语言到视觉的长上下文转移。arXiv视觉
MaskViT用于视频预测的掩码视觉预训练。arXiv视觉
MiniCPM-Llama3-V 2.5您手机上的 GPT-4V 级 MLLM。视觉
MoE-LLaVA大规模视觉-语言模型的专家混合模型。arXiv视觉
MotionLLM从人体动作和视频中理解人类行为。arXiv视觉
PLLaVA从图像到视频的无参数扩展,用于视频密集标题生成。arXiv视觉
Qwen-VL一个多功能的视觉-语言模型,用于理解、本地化、文本阅读等。arXiv视觉
ShareGPT4V通过更好的标题改进大型多模态模型。arXiv视觉
SOLOSOLO:用于可扩展视觉-语言建模的单一 Transformer。arXiv视觉
Video-CCAMVideo-CCAM:通过因果交叉注意力掩码推进视频-语言理解。视觉
Video-LLaVA在投影之前通过对齐学习统一视觉表示。arXiv视觉
VideoLLaMA 2在视频 LLMs 中推进时空建模和音频理解。arXiv视觉
Video-MME第一个关于视频分析的多模态 LLMs 全面评估基准。arXiv视觉
Vitron用于理解、生成、分割、编辑的统一像素级视觉 LLM。视觉
VILAVILA:关于视觉语言模型的预训练。arXiv视觉

^ back to contents ^

视频

来源描述论文游戏引擎类型
360DVD基于360度视频扩散模型的可控全景视频生成。arXiv视频
Animate-A-Story通过增强检索的视频生成来讲故事。arXiv视频
Anything in Any Scene真实感视频对象插入。视频
ART•V用扩散模型进行自回归文本到视频生成。arXiv视频
Assistive生成性视频平台,让你的创意变成现实。视频
AtomoVideo高保真图像到视频生成。arXiv视频
BackgroundRemover背景移除器,可使用AI通过简单的命令行界面从图像和视频中移除背景,且免费开源。视频
Boximator为视频合成生成丰富且可控的动作。arXiv视频
CoDeF用于时间一致性视频处理的内容变形场。arXiv视频
CogVideo根据文本描述生成视频。视频
CogVideoXCogVideoX 是视频生成模型的开源版本,同源于清影。视频
CogVLMCogVLM 是一个强大的开源视觉语言模型 (VLM)。视觉
CoNR从手绘动漫角色表 (ACS) 中生成生动的舞蹈视频。arXiv视频
Decohere创造无法拍摄的内容。视频
DescriptDescript 是一种简单、强大且有趣的编辑方式。视频
Diffutoon通过扩散模型进行高分辨率可编辑卡通渲染。arXiv视频
dolphin基于大语言模型的一般视频互动平台。视频
DomoAI借助DomoAI放大你的创造力。视频
DynamiCrafter利用视频扩散先验动画开放领域图像。arXiv视频
EDGE我们介绍EDGE,一种强大的可编辑舞蹈生成方法,能够创建逼真且物理上合理的舞蹈,并且能够忠实于任意输入音乐。arXiv视频
EMOEmote Portrait Alive - 通过Audio2Video扩散模型在弱条件下生成表情丰富的肖像视频。arXiv视频
Emu Video通过显式图像条件化对文本到视频生成进行因子化。视频
EtnaEtna 可以基于简短的文本描述生成相应的视频内容。视频
Fairy快速并行化的指令导向视频到视频合成。视频
Follow Your Pose使用无姿势视频进行姿势引导的文本到视频生成。arXiv视频
FullJourney完整的AI创作工具套件。视频
Gen-2多模态的AI系统,可以使用文本、图像或视频片段生成新视频。视频
Generative Dynamics生成性图像动态。视频
Genie生成性互动环境 。arXiv视频
Genmo用AI魔法般地制作视频。视频
GenTron用扩散变压器进行图像和视频生成。视频
HiGen文本到视频生成的层次化时空解耦。视频
Hotshot-XLHotshot-XL 是一个AI文本到GIF模型,训练目的是与稳定扩散XL协同工作。视频
Imagen Video给定文本提示,Imagen Video 使用基础视频生成模型和一系列交替的空间和时间视频超分辨率模型生成高清视频。视频
InstructVideo使用人为反馈指导视频扩散模型。arXiv视频
I2VGen-XL通过级联扩散模型进行高质量图像到视频合成。arXiv视频
LaVie使用级联潜在扩散模型进行高质量视频生成。arXiv视频
LTX StudioLTX Studio 是一个为创作者、营销人员、电影制片人和工作室提供的全面的AI驱动电影制作平台。视频
Lumiere用于视频生成的时空扩散模型。arXiv视频
LVDM用于高保真长视频生成的潜在视频扩散模型。arXiv视频
MagicVideo用潜在扩散模型高效视频生成。arXiv视频
MagicVideo-V2多阶段高美学视频生成。arXiv视频
Magic Hour简化了的创作者AI视频制作。视频
MAGVIT-v2分词器是视觉生成的关键。视频
MAGVIT蒙版生成视频变压器。视频
Make-A-VideoMake-A-Video 是最先进的AI系统,可以从文本生成视频。arXiv视频
Make Pixels Dance高动态视频生成。arXiv视频
Make-Your-Video使用文本和结构指导进行定制视频生成。arXiv视频
MicroCinema用于文本到视频生成的分而治之方法。arXiv视频
Mini-Gemini挖掘多模态视觉语言模型的潜力。视觉
MobileVidFactory基于扩散的社交媒体视频自动生成,应用于移动设备的文本。视频
MOFA-Video基于固定图片到视频扩散模型中的生成运动场适应来控制图像动画。arXiv视频
MoneyPrinterTurbo使用大模型一键生成短视频。视频
MoonvalleyMoonvalley 是一个开创性的文本到视频生成 AI 模型。视频
Mora类似于 Sora 的通用视频生成器。arXiv视频
Morph Studio用我们的文本到视频 AI 魔法,通过提示展现你的创造力。视频
MotionCtrl一个统一且灵活的视频生成运动控制器。arXiv视频
MotionDirector文本到视频扩散模型的运动自定义。arXiv视频
Motionshop在视频中用 3D 角色替换人物的应用程序。视频
Mov2movAutomatic1111/stable-diffusion-webui 的 Mov2mov 插件。视频
MovieFactory使用大生成模型从文本自动创建电影。arXiv视频
Neural Frames探索视觉世界的合成器。视频
NeverEnds创建你的世界。视频
Open-Sora为所有人提供高效视频制作的普及化。视频
Open-SoraOpen-Sora 计划。视频
Phenaki一个从文本生成视频的模型,可以随时间变化提示,视频时间可长达几分钟。arXiv视频
Pika LabsPika Labs 正在用 AI 革新视频制作体验。视频
PixelingPixeling 让我们的客户能够创建高度精确的超现实且极具控制力的视觉内容,包括图像、视频和 3D 模型。视频
PixVerse使用 AI 创建令人惊叹的视频。视频
Pollinations创作变得简单、快速、有趣。视频
Reuse and Diffuse文本到视频生成的迭代去噪。arXiv视频
ShortGPT一个用于自动化短视频内容创作的实验性 AI 框架。视频
Show-1将像素和潜在扩散模型结合用于文本到视频生成。arXiv视频
Snap Video用于文本到视频合成的缩放时空变压器。arXiv视频
Sora从文本生成视频。视频
SoraWebuiSoraWebui 是一个开源的 Sora 网络客户端,用户可以轻松使用 OpenAI 的 Sora 模型从文本创建视频。视频
StableVideo基于文本驱动的稳定扩散视频编辑。视频
Stable Video Diffusion稳定视频扩散(SVD)图像到视频。视频
StoryDiffusion用于长范围图像和视频生成的一致自注意力。arXiv视频
StreamingT2V从文本生成一致、动态和可扩展的长视频。arXiv视频
StyleCrafter使用风格适配器增强风格化的文本到视频生成。arXiv视频
TATS使用时间不可知 VQGAN 和时间敏感变压器生成长视频。视频
Text2Video-Zero文本到图像扩散模型是零样本视频生成器。arXiv视频
TF-T2V使用无文本视频扩展文本到视频生成的配方。arXiv视频
ToraTora: 基于轨迹的扩散变压器视频生成模型。arXiv视频
Track-AnythingTrack-Anything 是一个灵活且交互性的视频对象跟踪与分割工具,基于 Segment Anything 和 XMem。arXiv视频
Tune-A-Video图像扩散模型的一次性调优用于文本到视频生成。arXiv视频
TwelveLabs像人类一样理解视频的多模态 AI。视频
UniVG面向统一模式的视频生成。视频
VGen基于扩散模型的视频生成整体生态系统。arXiv视频
Video-ChatGPTVideo-ChatGPT 是一个能够生成视频对话的模型。arXiv视频
VideoComposer具有运动控制功能的组件化视频合成。arXiv视频
VideoCrafter1用于高质量视频生成的开放扩散模型。arXiv视频
VideoCrafter2克服数据限制的高质量视频扩散模型。arXiv视频
VideoDrafter具有 LLM 的内容一致多场景视频生成。arXiv视频
VideoElevator通过多功能文本到图像扩散模型提升视频生成质量。arXiv视频
VideoFactory在时空扩散中交换注意力用于文本到视频生成。视频
VideoGen高分辨率文本到视频生成的参考引导潜在扩散方法。arXiv视频
VideoLCM视频潜在一致性模型。arXiv视频
Video LDMs调整你的潜在变量:使用潜在扩散模型生成高分辨率视频。arXiv视频
Video-LLaVA在投影前对齐中学习联合视觉表示。arXiv视频
VideoMamba用于高效视频理解的状态空间模型。arXiv视频
Video-of-Thought思考视频:从感知到认知逐步的视频推理。视频
VideoPoet零样本视频生成的大型语言模型。arXiv视频
Vispunk Motion仅用文本创建现实视频。视频
VisualRWKVVisualRWKV 是增强版的 RWKV 语言模型,使 RWKV 能处理各种视觉任务。视觉
V-JEPA视频联合嵌入预测架构。arXiv视频
W.A.L.T使用扩散模型生成逼真的视频。arXiv视频
ZeroscopeZeroscope 文本到视频转换。视频

^ 返回目录 ^

音频

来源描述论文游戏引擎类型
AcademiCodec一个面向学术研究的开源音频编解码模型。音频
Amphion一个开源的音频、音乐和语音生成工具包。arXiv音频
ArchiSound使用扩散模型进行音频生成,基于PyTorch。音频
Audiobox使用自然语言提示进行统一的音频生成。音频
AudioEditing使用DDPM反转进行零样本无监督和基于文本的音频编辑。arXiv音频
Audiogen Codec一种低压缩的48khz立体声神经音频编解码器,优化音频保真度 🎵。音频
AudioGPT理解和生成语音、音乐、声音和会说话的头。arXiv音频
AudioLCM通过潜在一致性模型进行文本到音频生成。arXiv音频
AudioLDM使用潜在扩散模型进行文本到音频生成。arXiv音频
AudioLDM 2使用自监督预训练学习整体的音频生成。arXiv音频
Auffusion利用扩散模型和大型语言模型的力量进行文本到音频生成。arXiv音频
CTAG通过合成器编程进行创意文本到音频生成。音频
FoleyCrafterFoleyCrafter:使无声视频生动起来,配以逼真且同步的声音。arXiv音频
MAGNeT使用单个非自回归变换器的遮罩音频生成。音频
Make-An-Audio使用提示增强扩散模型进行文本到音频生成。arXiv音频
Make-An-Audio 3通过基于流的扩散变换器进行文本转音频。arXiv音频
NeuralSound使用声学传递的基于学习的模式声音合成。arXiv音频
OptimizerAI为创作者、游戏制作者、艺术家、视频制作者提供声音。音频
Qwen2-Audio由阿里巴巴云提出的Qwen2-Audio聊天和预训练大型音频语言模型。arXiv音频
SEE-2-SOUND零样本空间环境到空间声音。arXiv音频
SoundStorm高效并行音频生成。arXiv音频
Stable Audio快速时间条件的潜在音频扩散。音频
Stable Audio OpenStable Audio Open 1.0可以从文本提示生成可变长度(最长达47秒)的44.1kHz立体声音频。音频
SyncFusionSyncFusion:多模态同步开始的视频到音频拟音合成。arXiv音频
TANGO使用指令调谐LLM和潜在扩散模型进行文本到音频生成。音频
VTA-LDM视频到音频生成,带有隐藏对齐。arXiv音频
Wavjourney使用大型语言模型进行合成音频创作。arXiv音频

^ 返回目录 ^

音乐

来源描述论文游戏引擎类型
AIVA人工智能创作情感配乐。音乐
Amper Music由Amper提供支持的定制音乐生成技术。音乐
Boomy创建生成音乐,与世界分享。音乐
ChatMusician将内在音乐能力引入大型语言模型。音乐
Chord2Melody自动音乐生成AI。音乐
Diff-BGM用于视频背景音乐生成的扩散模型。arXiv音乐
GPTAbleton用于处理GPT响应并通过AbletonOSC和python-osc将MIDI音符发送到Ableton剪辑的草稿脚本。音乐
HeyMusic.AIAI音乐生成器。音乐
Image to MusicAI图像到音乐生成器是一种使用人工智能将图像转换为音乐的工具。音乐
JEN-1通过全向扩散模型进行文本引导的通用音乐生成。音乐
Jukebox一个音乐生成模型。arXiv音乐
MagentaMagenta是一个研究项目,探索机器学习在艺术和音乐创作过程中的作用。音乐
MeLoDy高效的神经音乐生成。音乐
MubertAI生成音乐。音乐
MuseNet一种能生成4分钟多乐器音乐作品的深度神经网络,可以融合从乡村到莫扎特到披头士等风格。音乐
MusicGen简单且可控的音乐生成。arXiv音乐
MusicLDM使用节拍同步混合策略增强文本到音乐生成的新颖性。arXiv音乐
MusicLM从文本生成音乐。arXiv音乐
Riffusion AppRiffusion是一个基于稳定扩散的实时音乐生成应用程序。音乐
SonautoSonauto是一个AI音乐编辑器,可以将提示、歌词或旋律转化为任何风格的完整歌曲。音乐
SoundRaw为创作者提供AI音乐生成器。音乐
Soundry AI生成AI工具,包括文本到声音和无限样本包。音乐

^ 返回目录 ^

歌声

<SOURCE_TEXT>
| 来源                                                                                      | 描述                                                                                                                                                                                    |   论文   |  游戏引擎  |   类型   |
| :------------------------------------------------------------------------------------------ | :--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------- | :-----------: | :-----------: | :-------: |
| [DiffSinger](https://github.com/MoonInTheRiver/DiffSinger)                                     | 通过浅层扩散机制进行歌声合成。                                                                   | [arXiv](https://arxiv.org/abs/2105.02446)      |              |   歌声合成   |
| [Retrieval-based-Voice-Conversion-WebUI](https://github.com/liujing04/Retrieval-based-Voice-Conversion-WebUI)                                     | 一种基于VITS的易于使用的声音转换框架。                                                                             |                      |              |   歌声合成   |
| [so-vits-svc](https://github.com/svc-develop-team/so-vits-svc)                                 | SoftVC VITS 歌声转换。                                                                                                                                      |                       |              |   歌声合成   |
| [VI-SVS](https://github.com/PlayVoice/VI-SVS)                                                  | 使用VITS和Opencpop进行歌声合成开发;与VISinger不同。                                                                                         |                       |              |   歌声合成   |

<p style="text-align: right;"><a href="#table-of-contents">^ 返回目录 ^</a></p>

## <span id="speech">语音</span>

| 来源                                                                                      | 描述                                                                                                                                                                                    |   论文   |  游戏引擎  |   类型   |
| :------------------------------------------------------------------------------------------ | :--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------- | :-----------: | :-----------: | :-------: |
| [Applio](https://github.com/IAHispano/Applio)                                                  | 终极语音克隆工具,经过精心优化,拥有无与伦比的强大功能、模块化和用户友好的体验。                              |                                                |              |  语音  |
| [Audyo](https://www.audyo.ai/)                                                                 | 输入文本。输出音频。                                                                                                                              |                                                |              |  语音  |
| [Bark](https://github.com/suno-ai/bark)                                                        | 基于文本提示的生成音频模型。                                                                                                           |                                                 |              |  语音  |
| [Bert-VITS2](https://github.com/fishaudio/Bert-VITS2)                                          | 带有多语言bert的VITS2骨干模型。                                                                                                          |                                                 |              |  语音  |
| [ChatTTS](https://github.com/2noise/ChatTTS)                                                   | ChatTTS是一种用于日常对话的生成语音模型。                                                                                        |                                                 |              |  语音  |
| [CLAPSpeech](https://clapspeech.github.io/)                                                    | 使用对比语言-音频预训练从文本上下文中学习韵律。                                           | [arXiv](https://arxiv.org/abs/2305.10763)      |              |  语音  |
| [CosyVoice](https://github.com/FunAudioLLM/CosyVoice)                                          | 多语言大规模语音生成模型,提供推理、训练和部署的全栈能力。                                   |                                                 |              |  语音  |
| [DEX-TTS](https://github.com/winddori2002/DEX-TTS)                                             | 基于扩散的表达式文本转语音,具有时间变异性风格建模。                                         | [arXiv](https://arxiv.org/abs/2406.19135)      |              |  语音  |
| [EmotiVoice](https://github.com/netease-youdao/EmotiVoice)                                     | 多语音和提示控制TTS引擎。                                                                                                 |                                                 |              |  语音  |
| [Fliki](https://fliki.ai/)                                                                     | 使用AI语音将文本转换为视频。                                                                                                           |                                                 |              |  语音  |
| [Glow-TTS](https://github.com/jaywalnut310/glow-tts)                                           | 通过单调对齐搜索实现文本到语音的生成流。                                                       | [arXiv](https://arxiv.org/abs/2005.11129)      |              |  语音  |
| [GPT-SoVITS](https://github.com/RVC-Boss/GPT-SoVITS)                                           | 强大的少样本语音转换和文本转语音WebUI。                                                                                 |                                                  |              |  语音  |
| [LOVO](https://lovo.ai/)                                                                       | LOVO是数千名创作者的首选AI语音生成器和文本转语音平台。                                                      |                                                  |              |  语音  |
| [MahaTTS](https://github.com/dubverse-ai/MahaTTS)                                              | 开源的大规模语音生成模型。                                                                                                   |                                                 |              |  语音  |
| [Matcha-TTS](https://github.com/shivammehta25/Matcha-TTS)                                      | 具有条件流匹配的快速TTS架构。                                                                    | [arXiv](https://arxiv.org/abs/2309.03199)      |              |  语音  |
| [MeloTTS](https://github.com/myshell-ai/MeloTTS)                                               | MyShell.ai提供的高质量多语言文本转语音库。支持英语、西班牙语、法语、中文、日语和韩语。       |                                                  |              |  语音  |
| [MetaVoice-1B](https://github.com/metavoiceio/metavoice-src)                                   | 人类水平语音智能的AI。                                                                                                         |                                                 |              |  语音  |
| [Narakeet](https://www.narakeet.com/)                                                          | 使用真实感文本转语音轻松创建旁白。                                                                                        |                                                 |              |  语音  |
| [One-Shot-Voice-Cloning](https://github.com/CMsmartvoice/One-Shot-Voice-Cloning)               | 基于Unet-TTS的一次性语音克隆。                                                                                                       |                                                  |              |  语音  |
| [OpenVoice](https://github.com/myshell-ai/OpenVoice)                                           | MyShell瞬间语音克隆。                                                                                                              |                                                  |              |  语音  |
| [OverFlow](https://github.com/shivammehta25/OverFlow)                                          | 通过在神经变换器上添加流来改进TTS。                                                                                     |                                                  |              |  语音  |
| [RealtimeTTS](https://github.com/KoljaB/RealtimeTTS)                                           | RealtimeTTS是一种专为实时应用设计的最先进的文本转语音(TTS)库。                                        |                                                  |              |  语音  |
| [SenseVoice](https://github.com/FunAudioLLM/SenseVoice)                                        | SenseVoice是一个语音基础模型,具有多种语音理解能力,包括自动语音识别(ASR)、口语语言识别(LID)、语音情感识别(SER)和音频事件检测(AED)。                                                                                            |                                                  |              |  语音  |
| [SpeechGPT](https://github.com/0nutation/SpeechGPT)                                            | 赋予大语言模型内在的跨模态对话能力。                                      | [arXiv](https://arxiv.org/abs/2305.11000)      |              |  语音  |
| [speech-to-text-gpt3-unity](https://github.com/dr-iskandar/speech-to-text-gpt3-unity)          | 这是我在Unity中使用OpenAI的Whisper和ChatGPT API的代码库。                                                                           |                                                  |     Unity     |  语音  |
| [Stable Speech](https://github.com/sanchit-gandhi/stable-speech)                               | Stability AI的文本转语音模型。                                                                                                          |                                                   |              |  语音  |
| [StableTTS](https://github.com/KdaiP/StableTTS)                                                | 使用流匹配和DiT的下一代TTS模型,灵感来自Stable Diffusion 3。                                                        |                                                   |              |  语音  |
| [StyleTTS 2](https://github.com/yl4579/StyleTTS2)                                              | 通过大型语音语言模型进行风格扩散和对抗性训练,朝着人类级别的文本转语音迈进。    | [arXiv](https://arxiv.org/abs/2306.07691)      |              |  语音  |
| [TorToiSe-TTS](https://github.com/neonbjb/tortoise-tts)                                        | 一个强调质量的多语音TTS系统。                                                                                  |                                                  |              |  语音  |
| [TTS Generation WebUI](https://github.com/rsxdalv/tts-generation-webui)                        | TTS Generation WebUI(包括Bark、MusicGen、Tortoise、RVC、Vocos、Demucs)。                                                                           |                                                  |              |  语音  |
| [VALL-E](https://valle-demo.github.io/)                                                        | 神经编解码语言模型是零样本文本转语音合成器。                                                    | [arXiv](https://arxiv.org/abs/2301.02111)      |              |  语音  |
| [VALL-E X](https://vallex-demo.github.io/)                                                     | 用你的声音说外语:跨语言神经编解码语言模型。                                  | [arXiv](https://arxiv.org/abs/2303.03926)      |              |  语音  |
| [Vocode](https://docs.vocode.dev/)                                                             | Vocode是一个构建基于语音的LLM应用的开源库。                                                                   |                                                   |              |  语音  |
| [Voicebox](https://github.com/SpeechifyInc/Meta-voicebox)                                      | 文本引导的多语言通用语音大规模生成。                                                             | [arXiv](https://arxiv.org/abs/2306.15687)      |              |  语音  |
| [VoiceCraft](https://github.com/jasonppy/VoiceCraft)                                           | 零样本语音编辑和野生文本转语音。                                                                                    |                                                     |              |  语音  |
| [Whisper](https://github.com/openai/whisper)                                                   | Whisper是一个通用的语音识别模型。                                                                                     |                                                      |              |  语音  |
| [WhisperSpeech](https://github.com/collabora/WhisperSpeech)                                    | 通过反转Whisper构建的开源文本转语音系统。                                                                           |                                                      |              |  语音  |
| [X-E-Speech](https://github.com/X-E-Speech/X-E-Speech-code)                                    | 非自回归跨语言情感文本转语音和语音转换的联合训练框架。                                |                                                      |              |  语音  |
| [XTTS](https://github.com/coqui-ai/TTS)                                                        | XTTS是一个用于高级文本转语音生成的库。                                                                                  |                                                      |              |  语音  |
| [YourTTS](https://github.com/Edresson/YourTTS)                                                 | 面向零样本多说话人TTS和零样本语音转换。                                           | [arXiv](https://arxiv.org/abs/2112.02418)      |              |  语音  |
| [ZMM-TTS](https://github.com/nii-yamagishilab/ZMM-TTS)                                         | 在自监督离散语音表示条件下的零样本多语言和多说话人语音合成。  | [arXiv](https://arxiv.org/abs/2312.14398)      |              |  语音  |

<p style="text-align: right;"><a href="#table-of-contents">^ 返回目录 ^</a></p>

## <span id="speech">分析</span>

| 来源                                                                                      | 描述                                                                                                                                                                                    |  游戏引擎  |   类型   |
| :------------------------------------------------------------------------------------------ | :--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------- | :-----------: | :-------: |
| [Ludo.ai](https://ludo.ai/)                                                        | 游戏研究和设计助手。                                                                                                                        |              |  分析  |

<p style="text-align: right;"><a href="#table-of-contents">^ 返回目录 ^</a></p>
</SOURCE_TEXT>
项目侧边栏1项目侧边栏2
推荐项目
Project Cover

豆包MarsCode

豆包 MarsCode 是一款革命性的编程助手,通过AI技术提供代码补全、单测生成、代码解释和智能问答等功能,支持100+编程语言,与主流编辑器无缝集成,显著提升开发效率和代码质量。

Project Cover

AI写歌

Suno AI是一个革命性的AI音乐创作平台,能在短短30秒内帮助用户创作出一首完整的歌曲。无论是寻找创作灵感还是需要快速制作音乐,Suno AI都是音乐爱好者和专业人士的理想选择。

Project Cover

有言AI

有言平台提供一站式AIGC视频创作解决方案,通过智能技术简化视频制作流程。无论是企业宣传还是个人分享,有言都能帮助用户快速、轻松地制作出专业级别的视频内容。

Project Cover

Kimi

Kimi AI助手提供多语言对话支持,能够阅读和理解用户上传的文件内容,解析网页信息,并结合搜索结果为用户提供详尽的答案。无论是日常咨询还是专业问题,Kimi都能以友好、专业的方式提供帮助。

Project Cover

阿里绘蛙

绘蛙是阿里巴巴集团推出的革命性AI电商营销平台。利用尖端人工智能技术,为商家提供一键生成商品图和营销文案的服务,显著提升内容创作效率和营销效果。适用于淘宝、天猫等电商平台,让商品第一时间被种草。

Project Cover

吐司

探索Tensor.Art平台的独特AI模型,免费访问各种图像生成与AI训练工具,从Stable Diffusion等基础模型开始,轻松实现创新图像生成。体验前沿的AI技术,推动个人和企业的创新发展。

Project Cover

SubCat字幕猫

SubCat字幕猫APP是一款创新的视频播放器,它将改变您观看视频的方式!SubCat结合了先进的人工智能技术,为您提供即时视频字幕翻译,无论是本地视频还是网络流媒体,让您轻松享受各种语言的内容。

Project Cover

美间AI

美间AI创意设计平台,利用前沿AI技术,为设计师和营销人员提供一站式设计解决方案。从智能海报到3D效果图,再到文案生成,美间让创意设计更简单、更高效。

Project Cover

AIWritePaper论文写作

AIWritePaper论文写作是一站式AI论文写作辅助工具,简化了选题、文献检索至论文撰写的整个过程。通过简单设定,平台可快速生成高质量论文大纲和全文,配合图表、参考文献等一应俱全,同时提供开题报告和答辩PPT等增值服务,保障数据安全,有效提升写作效率和论文质量。

投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号