#AI模型

EchoMimic - 音频驱动的逼真人像动画系统 支持关键点编辑
EchoMimic音频驱动肖像动画AI模型关键点条件Github开源项目
EchoMimic是一个音频驱动的人像动画系统,通过编辑关键点来控制动画效果。系统支持英语和中文音频输入,可生成自然的口型、表情和头部动作。项目开源了推理代码和预训练模型,可用于生成高质量的说话头视频,适用于虚拟主播等应用场景。
Practical-RIFE - 开源视频插帧和增强框架
RIFE视频插帧AI模型深度学习计算机视觉Github开源项目
Practical-RIFE是基于RIFE和SAFA的开源视频处理框架,主要用于视频插帧和增强。该项目为开发者提供多种功能和新模型,支持2倍和4倍插帧,可处理高分辨率视频。最新的v4.22模型在动画场景处理方面有显著提升。此外,Practical-RIFE还包含视频增强功能,能有效提升视频质量。项目提供多种参数选项,适用于不同的视频处理需求。
DeepSeek-Coder-V2 - 开源代码语言模型
DeepSeek-Coder-V2MoE模型代码智能开源模型AI模型Github开源项目
DeepSeek-Coder-V2是一款性能出色的开源代码语言模型,在多项代码相关任务中展现了强大实力。该模型支持338种编程语言,拥有128K的上下文长度,采用混合专家(MoE)架构。提供16B和236B两种参数版本,在代码生成、补全和修复等任务中表现卓越,同时在数学推理和通用语言任务中也展现出强大能力,为代码智能领域带来重要进展。
VGen - 多功能开源视频生成工具库
VGen视频生成AI模型开源项目阿里巴巴Github
VGen是一个功能丰富的开源视频生成工具库。它整合了多个先进的视频生成模型,可根据文本、图像、动作和主体等输入创建高质量视频。VGen提供可视化、采样、训练和推理等实用工具,支持图像到视频、文本到视频等多种任务。该项目具有良好的扩展性和完整性,由阿里巴巴集团通义实验室开发。
taggui - 高效智能的AI图像数据集标注应用
TagGUI图像标签自动生成标签数据集创建AI模型Github开源项目
TagGUI是一款跨平台桌面应用,专为AI模型数据集制作而设计。该工具提供快速标记、标签自动完成和Stable Diffusion令牌计数等功能。支持CogVLM、LLaVA等模型的自动描述生成,并具备批量标签操作和高级图像过滤能力。TagGUI简化了图像标注流程,提高了AI数据集准备的效率。
llama-cpp-wasm - 浏览器环境下运行大语言模型的WebAssembly解决方案
llama-cpp-wasmWebAssemblyAI模型在线演示JavaScript库Github开源项目
llama-cpp-wasm是一个为llama.cpp提供WebAssembly构建和绑定的开源项目。它支持在浏览器中运行大语言模型,提供单线程和多线程版本。该项目兼容多种模型,包括Qwen、StableLM和TinyLlama等,使开发者能够在Web环境中实现自然语言处理功能。项目易于集成,为浏览器端AI应用开发提供了便利。
OOTDiffusion - 先进的AI驱动虚拟试衣技术
OOTDiffusion虚拟试衣AI模型图像生成深度学习Github开源项目
OOTDiffusion是一项基于AI的虚拟试衣技术,通过先进的扩散模型实现服装与人物模型的精确融合。该技术支持半身和全身模型,生成高质量的试穿效果图。项目开源了预训练模型和推理代码,并提供在线演示。OOTDiffusion在虚拟试衣和时尚电商领域展现出显著优势,为这些行业提供了创新的技术解决方案。
promptbase - 优化基础AI模型性能的开源资源库
PromptbaseGPT-4MedpromptAI模型提示工程Github开源项目
promptbase是一个持续更新的开源资源库,致力于优化GPT-4等基础AI模型的性能。该项目集成了Medprompt方法的实例代码,并将相关提示技术拓展至非医疗领域。通过动态少样本选择、自生成思维链和选择洗牌集成等策略,promptbase显著提升了模型在多项基准测试中的表现。未来,该项目将提供更多关于提示工程科学流程的案例分析和专业访谈。
Awesome-Text-to-3D - 前沿文本和图像到3D内容生成技术资源集
text-to-3D图像生成深度学习计算机视觉AI模型Github开源项目
该项目汇总了文本到3D和图像到3D的前沿生成技术。内容涵盖基于2D先验模型学习3D的方法,以及直接在3D数据上训练的生成模型。资源列表包含DreamFusion、Magic3D、Shap·E等创新方法,展现了从文本或单一图像生成高质量3D内容的最新进展。这为研究人员和开发者提供了探索和应用3D生成技术的重要参考。
fish-diffusion - 开源框架简化TTS、SVS和SVC模型开发
Fish Diffusion语音合成AI模型开源项目多说话人Github
Fish Diffusion是一个开源的语音合成训练框架,专注于TTS、SVS和SVC任务。基于扩散模型,它支持多说话人合成和44.1kHz高品质输出。该项目优化了代码结构,提高了训练效率,并提供完整的环境配置和使用指南。Fish Diffusion适合研究人员和开发者探索语音合成技术,同时强调负责任的AI应用。项目特点包括简化的代码结构、多设备训练支持和半精度训练,有助于提高开发效率和降低资源消耗。此外,还提供了详细的数据集准备和模型训练指南,便于用户快速上手。
octo - 基于transformer的通用机器人控制策略
Octo机器人政策AI模型预训练模型微调Github开源项目
Octo是一个基于transformer的扩散策略模型,通过80万条多样化机器人轨迹数据训练而成。该模型支持多个RGB相机输入,可控制各种机器人手臂,并接受语言命令或目标图像指令。其模块化注意力结构使其能高效迁移至新的传感器输入、动作空间和形态。项目提供预训练模型、微调脚本和评估示例,便于研究人员进行深入开发和应用。
ComfyUI_IPAdapter_plus - ComfyUI图像风格转换和主题迁移模型
ComfyUIIPAdapter图像生成AI模型开源项目Github
ComfyUI_IPAdapter_plus为ComfyUI提供了强大的图像条件控制功能。该项目实现了多种IPAdapter模型,可将参考图像的风格或主题迁移到生成图像中。支持SD1.5和SDXL,提供基础、轻量和加强等版本。高级功能包括FaceID、批处理和动画支持。通过调整参数,可实现从风格迁移到精确布局复制等多样效果。
model - 开源地球AI模型与接口 构建数字地球的基石
Clay Foundation ModelAI模型开源地球JupyterLabGithub开源项目
Clay Foundation Model是专为地球科学研究设计的开源AI模型和接口。它可用于气候变化预测、地质分析等领域。项目支持JupyterLab环境,提供快速启动选项,适用于Binder和SageMaker Studio Lab。采用LightningCLI v2进行灵活的模型训练,文档基于Jupyter Book,便于研究人员和开发者共同参与和改进。
Long-CLIP - CLIP模型长文本处理能力升级 显著提升图像检索效果
Long-CLIPCLIP文本-图像检索零样本分类AI模型Github开源项目
Long-CLIP项目将CLIP模型的最大输入长度从77扩展到248,大幅提升了长文本图像检索性能。在长标题文本-图像检索任务中,R@5指标提高20%;传统文本-图像检索提升6%。这一改进可直接应用于需要长文本处理能力的各类任务,为图像检索和生成领域带来显著进展。
Eurus - 专注推理能力的开源大语言模型套件
EurusLLMAI模型自然语言处理机器推理Github开源项目
Eurus是一套专为复杂推理任务优化的开源大语言模型套件。在覆盖5个任务领域的12项测试中,Eurus-70B模型超越了GPT-3.5 Turbo的表现。该模型在LeetCode和TheoremQA等基准测试中取得显著进步,性能大幅领先于其他开源模型。Eurus项目还包括UltraInteract数据集和Eurus-RM-7B奖励模型,为推理任务提供全面解决方案。
T2I-CompBench - 组合式文本到图像生成的全面评估基准
T2I-CompBench++文本生成图像评估基准组合能力AI模型Github开源项目
T2I-CompBench++是一个用于评估组合式文本到图像生成的增强基准。它引入了人工评估图像-分数对、更全面的组合测试以及被Stable Diffusion 3等模型采用的新评估指标。该基准涵盖颜色、形状、纹理和空间关系等多个方面,通过多种方法全面衡量模型的组合能力。研究人员可利用此基准进行模型训练和评估,促进组合式图像生成技术的进步。
OpenChatKit - 强大的开源对话模型开发工具包
OpenChatKitAI模型自然语言处理开源项目模型训练Github
OpenChatKit是一套功能全面的开源工具包,用于开发专业和通用对话模型。它集成了指令微调的语言模型、内容审核模型和可扩展检索系统。该项目提供训练、微调和测试各种规模模型的代码,并支持检索增强功能。OpenChatKit基于OIG-43M数据集训练,由Together、LAION和Ontocord.ai联合开发。这一灵活的基础设施为开发者构建定制对话应用提供了便利。
Mind2Web - AI通用网页交互代理
Mind2Web网页代理数据集AI模型网页交互Github开源项目
Mind2Web是一个开创性的AI项目,旨在开发能在任何网站上执行复杂任务的通用网页交互代理。该项目构建了包含2,000多个开放式任务的数据集,覆盖137个网站和31个领域。Mind2Web的特点是任务多样性、真实网站环境和广泛的用户交互模式,为AI在网络环境中的应用提供了坚实基础。
llama2.c - 轻量级Llama 2模型推理引擎的纯C语言实现
Llama 2C语言模型推理AI模型开源项目Github
llama2.c是一个用纯C语言实现的Llama 2模型推理引擎,仅需700行代码即可运行PyTorch训练的模型。项目设计简洁易用,提供从训练到推理的完整方案,支持Meta官方和自定义小型Llama 2模型。通过模型量化技术,llama2.c能够提升推理速度并缩小模型体积,为轻量级大语言模型部署提供了高效解决方案。
exllama - 为现代GPU优化的快速内存高效Llama实现
ExLlamaAI模型GPU加速CUDA深度学习Github开源项目
ExLlama是一个基于Python/C++/CUDA的独立实现,针对4位GPTQ权重进行了优化,旨在提高现代GPU上的运行速度和内存效率。该项目支持NVIDIA 30系列及更新的GPU,可处理Llama、Koala和WizardLM等多种大型语言模型。ExLlama具备基准测试、聊天机器人示例和Web界面等功能,同时支持Docker部署。尽管仍在开发中,项目已展现出卓越的性能和效率。
unstructured-inference - 非结构化数据布局解析工具 支持多种检测模型
unstructured布局解析文档处理AI模型开源工具Github开源项目
unstructured-inference 是一个专注于文档布局分析的开源项目。它能够从各种文件中提取文档结构和文本内容,适用于需要高效文档处理的场景。该项目提供多种检测模型,如 Detectron2 和 YOLOX,可通过 API 与 unstructured 包集成。它支持自定义模型,为开发者提供了灵活的布局解析解决方案。
axolotl - 多功能AI模型微调工具
AxolotlAI模型微调训练配置Github开源项目
Axolotl是一个功能丰富的AI模型微调工具,支持llama、pythia、falcon等多种Huggingface模型。它提供全微调、LoRA、QLoRA等训练方法,支持自定义配置和多种数据集格式。Axolotl集成了xformer、flash attention等技术,可在单GPU或多GPU环境运行,支持Docker部署,并可将结果记录到wandb或mlflow。该工具为AI模型训练提供了灵活高效的解决方案。
MoA - 多层LLM集成方法MoA在基准测试中超越GPT-4
MoALLMAI模型开源模型自然语言处理Github开源项目
MoA项目开发了一种多层LLM集成方法,在AlpacaEval 2.0评测中得分65.1%,超过GPT-4 Omni的57.5%。项目提供简洁实现代码、交互式演示和评估脚本,便于研究者使用和复现。该方法在多个基准测试中表现优异,为AI系统性能提升提供新思路。
Real-ESRGAN - 开源AI图像超分辨率增强项目
Real-ESRGAN超分辨率图像修复AI模型开源项目Github
Real-ESRGAN是一个开源的AI图像超分辨率增强项目。该项目采用纯合成数据训练,可提升各类图像和视频质量。Real-ESRGAN提供多个预训练模型,适用于通用、动漫、人脸等场景,支持4倍及以上放大。项目包含Python脚本和便携式可执行文件,方便快速使用。此外,Real-ESRGAN开放训练代码,允许在自定义数据集上进行微调。
bot-on-anything - 将AI模型与多种消息应用无缝连接的智能对话机器人平台
AI模型消息应用智能对话机器人ChatGPT微信Github开源项目
bot-on-anything是一个开源项目,通过简单配置即可将多种AI模型接入各类消息应用。支持ChatGPT、GPT-3.0、New Bing和Google Bard等AI模型,以及微信、Telegram、QQ等应用平台。项目架构具有强大扩展性,新增应用或模型可复用现有能力,提高开发效率。适合开发者快速构建和部署智能对话系统。
MobileSAM - 高效轻量化图像分割模型,适用于移动设备
MobileSAM图像分割计算机视觉AI模型深度学习Github开源项目
MobileSAM是一种轻量级图像分割模型,专为移动应用优化。它保持了与原始SAM相当的性能,同时大幅减少了模型参数和推理时间。通过将ViT-H编码器替换为TinyViT,MobileSAM将参数量从615M降至9.66M,推理速度从456ms提升至12ms。该项目提供完整的训练和使用文档,支持ONNX导出,可轻松集成到现有SAM项目中。
metahuman-stream - 实时交互音视频同步对话的开源数字人项目
数字人交互流式AI模型视频处理音视频同步Github开源项目
metahuman-stream是一个开源的实时交互数字人项目,支持音视频同步对话和多种数字人模型。项目具备声音克隆、说话打断和全身视频拼接等功能,支持rtmp和webrtc传输。系统集成了多种TTS模型和LLM对话功能,为数字人应用开发提供丰富选择。该项目适用于商业级数字人应用开发,支持视频编排等高级特性。
VisionCraft - 免费API集成3000多种AI模型 支持图像文本和GIF生成
VisionCraft APIAI模型StableDiffusionLLMText2GIFGithub开源项目
VisionCraft API是一个免费服务,集成了超过3000种AI模型。该API支持图像、文本和GIF生成,包含StableDiffusion、LLM和Text2GIF等模块。其中StableDiffusion涵盖SD 1.X、SDXL和SD3多个版本的模型及Lora。API使用简单,提供详细文档和多种联系渠道,方便开发者快速接入和获取支持。
prompt-engineering-for-javascript-developers - AI提示工程速查表,JavaScript开发者实用技巧汇总
Prompt engineeringChatGPTAI模型自然语言处理对话系统Github开源项目
本速查表汇总了AI提示工程的关键原则和策略,专为JavaScript开发者设计。内容涵盖清晰指令编写、结构化输出、few-shot提示等技巧,以及迭代开发方法。同时提供摘要、推理、转换和扩展等任务的实例。这份资源旨在帮助JavaScript开发者快速掌握并提升AI提示工程技能。
gemma-cookbook - Google Gemma轻量级AI模型应用指南与实例
GemmaAI模型开源机器学习GoogleGithub开源项目
Google Gemma是一系列基于Gemini技术的轻量级开源AI模型。本项目收集了Gemma模型的综合指南和实例,涵盖基础应用、微调、部署及工具集成等方面。内容适合不同水平的开发者,为AI应用开发和优化提供参考资源。
MVSEP-MDX23-Colab_v2 - 多模型集成的音乐分离工具 支持灵活配置和批量处理
音乐分离AI模型MVSep-MDX23Colab音频处理Github开源项目
MVSEP-MDX23-Colab_v2是一个开源的音乐分离工具,集成了多种先进模型,如MelBand-Roformer、BS-Roformer和MDX-InstHQ4。支持单文件和文件夹批量处理,提供FLAC和16位输出等选项。采用BigShifts算法和改进的分块处理提高了分离质量和效率。工具适合需要高质量音轨分离的音频处理人员使用。
diart - Python实时音频处理框架 支持说话人分离和语音活动检测
实时音频处理说话人分类AI模型PythondiartGithub开源项目
diart是一个开源的Python实时音频处理框架,专注于AI驱动的音频应用开发。其核心功能包括实时说话人分离、语音活动检测和增量聚类。该框架集成了说话人分段和嵌入模型,支持自定义AI流程、基准测试和超参数优化。diart还提供WebSocket接口,方便进行Web服务部署。
Chinese-Vicuna - 中文LLaMA模型的低资源指令微调方案
Chinese-VicunaLLaMALoRAAI模型自然语言处理Github开源项目
Chinese-Vicuna项目旨在低资源环境下训练中文LLaMA模型。该方案可在单个RTX-2080TI上进行指令微调,在RTX-3090上实现长上下文多轮对话。具有参数效率高、显卡友好和易部署等特点,支持7B和13B模型微调及垂直领域应用。项目提供完整的训练、推理和部署代码,以及多种优化工具。
ComfyUI-I2VGenXL - I2VGenXL 模型为 ComfyUI 带来高清视频生成新体验
I2VGenXLComfyUI视频生成AI模型图像转视频Github开源项目
ComfyUI-I2VGenXL 项目将 I2VGenXL 模型集成到 ComfyUI 中,实现高质量视频生成。该项目支持 1280*704 分辨率输出,通过正负提示词控制生成过程。其自然动效和优质光影效果使其成为当前表现出色的高清视频模型。项目设计了标准工作流,支持文生视频和图生视频,并集成自动补帧功能,为视频创作提供完整解决方案。
MeshAnythingV2 - 艺术家级3D网格模型生成技术
MeshAnything V23D生成网格生成AI模型计算机图形学Github开源项目
MeshAnything V2是一个创新的3D网格模型生成项目,采用相邻网格分词技术,生成高质量的艺术家级模型。该项目可接受文本、图像或现有网格模型作为输入,输出最多包含1600个面的精细3D模型。项目提供命令行接口和Gradio演示界面,方便用户创建复杂3D模型。适用于需要快速生成高质量3D网格模型的场景。
cog-face-to-many - 面部图像轻松转化为3D、像素艺术、电子游戏、粘土动画和玩具效果
face-to-manyComfyUI3DAI模型视频游戏Github开源项目
face-to-many项目可以将任何面部图像转换为3D、像素艺术、电子游戏、粘土动画和玩具效果。该项目可在Replicate和ComfyUI上运行,提供了必要的自定义节点,如ComfyUI Controlnet Aux、InstantID和IPAdapter Plus等。通过克隆仓库、创建虚拟环境并安装依赖项,用户可以在本地运行该项目。详细的安装和运行指南帮助用户快速启动并体验项目功能。