#AI模型

Practical-RIFE是基于RIFE和SAFA的开源视频处理框架，主要用于视频插帧和增强。该项目为开发者提供多种功能和新模型，支持2倍和4倍插帧，可处理高分辨率视频。最新的v4.22模型在动画场景处理方面有显著提升。此外，Practical-RIFE还包含视频增强功能，能有效提升视频质量。项目提供多种参数选项，适用于不同的视频处理需求。

DeepSeek-Coder-V2 - 开源代码语言模型

DeepSeek-Coder-V2MoE模型代码智能开源模型AI模型Github开源项目

DeepSeek-Coder-V2是一款性能出色的开源代码语言模型，在多项代码相关任务中展现了强大实力。该模型支持338种编程语言，拥有128K的上下文长度，采用混合专家(MoE)架构。提供16B和236B两种参数版本，在代码生成、补全和修复等任务中表现卓越，同时在数学推理和通用语言任务中也展现出强大能力，为代码智能领域带来重要进展。

VGen - 多功能开源视频生成工具库

VGen视频生成AI模型开源项目阿里巴巴Github

VGen是一个功能丰富的开源视频生成工具库。它整合了多个先进的视频生成模型，可根据文本、图像、动作和主体等输入创建高质量视频。VGen提供可视化、采样、训练和推理等实用工具，支持图像到视频、文本到视频等多种任务。该项目具有良好的扩展性和完整性，由阿里巴巴集团通义实验室开发。

taggui - 高效智能的AI图像数据集标注应用

TagGUI图像标签自动生成标签数据集创建AI模型Github开源项目

TagGUI是一款跨平台桌面应用，专为AI模型数据集制作而设计。该工具提供快速标记、标签自动完成和Stable Diffusion令牌计数等功能。支持CogVLM、LLaVA等模型的自动描述生成，并具备批量标签操作和高级图像过滤能力。TagGUI简化了图像标注流程，提高了AI数据集准备的效率。

llama-cpp-wasm - 浏览器环境下运行大语言模型的WebAssembly解决方案

llama-cpp-wasmWebAssemblyAI模型在线演示JavaScript库Github开源项目

llama-cpp-wasm是一个为llama.cpp提供WebAssembly构建和绑定的开源项目。它支持在浏览器中运行大语言模型，提供单线程和多线程版本。该项目兼容多种模型，包括Qwen、StableLM和TinyLlama等，使开发者能够在Web环境中实现自然语言处理功能。项目易于集成，为浏览器端AI应用开发提供了便利。

OOTDiffusion - 先进的AI驱动虚拟试衣技术

OOTDiffusion虚拟试衣AI模型图像生成深度学习Github开源项目

OOTDiffusion是一项基于AI的虚拟试衣技术，通过先进的扩散模型实现服装与人物模型的精确融合。该技术支持半身和全身模型，生成高质量的试穿效果图。项目开源了预训练模型和推理代码，并提供在线演示。OOTDiffusion在虚拟试衣和时尚电商领域展现出显著优势，为这些行业提供了创新的技术解决方案。

promptbase - 优化基础AI模型性能的开源资源库

PromptbaseGPT-4MedpromptAI模型提示工程Github开源项目

promptbase是一个持续更新的开源资源库,致力于优化GPT-4等基础AI模型的性能。该项目集成了Medprompt方法的实例代码,并将相关提示技术拓展至非医疗领域。通过动态少样本选择、自生成思维链和选择洗牌集成等策略,promptbase显著提升了模型在多项基准测试中的表现。未来,该项目将提供更多关于提示工程科学流程的案例分析和专业访谈。

Awesome-Text-to-3D - 前沿文本和图像到3D内容生成技术资源集

text-to-3D图像生成深度学习计算机视觉AI模型Github开源项目

该项目汇总了文本到3D和图像到3D的前沿生成技术。内容涵盖基于2D先验模型学习3D的方法，以及直接在3D数据上训练的生成模型。资源列表包含DreamFusion、Magic3D、Shap·E等创新方法，展现了从文本或单一图像生成高质量3D内容的最新进展。这为研究人员和开发者提供了探索和应用3D生成技术的重要参考。

fish-diffusion - 开源框架简化TTS、SVS和SVC模型开发

Fish Diffusion语音合成AI模型开源项目多说话人Github

Fish Diffusion是一个开源的语音合成训练框架，专注于TTS、SVS和SVC任务。基于扩散模型，它支持多说话人合成和44.1kHz高品质输出。该项目优化了代码结构，提高了训练效率，并提供完整的环境配置和使用指南。Fish Diffusion适合研究人员和开发者探索语音合成技术，同时强调负责任的AI应用。项目特点包括简化的代码结构、多设备训练支持和半精度训练，有助于提高开发效率和降低资源消耗。此外，还提供了详细的数据集准备和模型训练指南，便于用户快速上手。

octo - 基于transformer的通用机器人控制策略

Octo机器人政策AI模型预训练模型微调Github开源项目

Octo是一个基于transformer的扩散策略模型，通过80万条多样化机器人轨迹数据训练而成。该模型支持多个RGB相机输入，可控制各种机器人手臂，并接受语言命令或目标图像指令。其模块化注意力结构使其能高效迁移至新的传感器输入、动作空间和形态。项目提供预训练模型、微调脚本和评估示例，便于研究人员进行深入开发和应用。

ComfyUI_IPAdapter_plus - ComfyUI图像风格转换和主题迁移模型

ComfyUIIPAdapter图像生成AI模型开源项目Github

ComfyUI_IPAdapter_plus为ComfyUI提供了强大的图像条件控制功能。该项目实现了多种IPAdapter模型,可将参考图像的风格或主题迁移到生成图像中。支持SD1.5和SDXL,提供基础、轻量和加强等版本。高级功能包括FaceID、批处理和动画支持。通过调整参数,可实现从风格迁移到精确布局复制等多样效果。

model - 开源地球AI模型与接口构建数字地球的基石

Clay Foundation ModelAI模型开源地球JupyterLabGithub开源项目

Clay Foundation Model是专为地球科学研究设计的开源AI模型和接口。它可用于气候变化预测、地质分析等领域。项目支持JupyterLab环境，提供快速启动选项，适用于Binder和SageMaker Studio Lab。采用LightningCLI v2进行灵活的模型训练，文档基于Jupyter Book，便于研究人员和开发者共同参与和改进。

Long-CLIP - CLIP模型长文本处理能力升级显著提升图像检索效果

Long-CLIPCLIP文本-图像检索零样本分类AI模型Github开源项目

Long-CLIP项目将CLIP模型的最大输入长度从77扩展到248，大幅提升了长文本图像检索性能。在长标题文本-图像检索任务中，R@5指标提高20%；传统文本-图像检索提升6%。这一改进可直接应用于需要长文本处理能力的各类任务，为图像检索和生成领域带来显著进展。

Eurus - 专注推理能力的开源大语言模型套件

EurusLLMAI模型自然语言处理机器推理Github开源项目

Eurus是一套专为复杂推理任务优化的开源大语言模型套件。在覆盖5个任务领域的12项测试中，Eurus-70B模型超越了GPT-3.5 Turbo的表现。该模型在LeetCode和TheoremQA等基准测试中取得显著进步，性能大幅领先于其他开源模型。Eurus项目还包括UltraInteract数据集和Eurus-RM-7B奖励模型，为推理任务提供全面解决方案。

T2I-CompBench - 组合式文本到图像生成的全面评估基准

T2I-CompBench++文本生成图像评估基准组合能力AI模型Github开源项目

T2I-CompBench++是一个用于评估组合式文本到图像生成的增强基准。它引入了人工评估图像-分数对、更全面的组合测试以及被Stable Diffusion 3等模型采用的新评估指标。该基准涵盖颜色、形状、纹理和空间关系等多个方面,通过多种方法全面衡量模型的组合能力。研究人员可利用此基准进行模型训练和评估,促进组合式图像生成技术的进步。

OpenChatKit - 强大的开源对话模型开发工具包

OpenChatKitAI模型自然语言处理开源项目模型训练Github

OpenChatKit是一套功能全面的开源工具包,用于开发专业和通用对话模型。它集成了指令微调的语言模型、内容审核模型和可扩展检索系统。该项目提供训练、微调和测试各种规模模型的代码,并支持检索增强功能。OpenChatKit基于OIG-43M数据集训练,由Together、LAION和Ontocord.ai联合开发。这一灵活的基础设施为开发者构建定制对话应用提供了便利。

Mind2Web - AI通用网页交互代理

Mind2Web网页代理数据集AI模型网页交互Github开源项目

Mind2Web是一个开创性的AI项目，旨在开发能在任何网站上执行复杂任务的通用网页交互代理。该项目构建了包含2,000多个开放式任务的数据集，覆盖137个网站和31个领域。Mind2Web的特点是任务多样性、真实网站环境和广泛的用户交互模式，为AI在网络环境中的应用提供了坚实基础。

llama2.c - 轻量级Llama 2模型推理引擎的纯C语言实现

Llama 2C语言模型推理AI模型开源项目Github

llama2.c是一个用纯C语言实现的Llama 2模型推理引擎,仅需700行代码即可运行PyTorch训练的模型。项目设计简洁易用,提供从训练到推理的完整方案,支持Meta官方和自定义小型Llama 2模型。通过模型量化技术,llama2.c能够提升推理速度并缩小模型体积,为轻量级大语言模型部署提供了高效解决方案。

exllama - 为现代GPU优化的快速内存高效Llama实现

ExLlamaAI模型GPU加速CUDA深度学习Github开源项目

ExLlama是一个基于Python/C++/CUDA的独立实现,针对4位GPTQ权重进行了优化,旨在提高现代GPU上的运行速度和内存效率。该项目支持NVIDIA 30系列及更新的GPU,可处理Llama、Koala和WizardLM等多种大型语言模型。ExLlama具备基准测试、聊天机器人示例和Web界面等功能,同时支持Docker部署。尽管仍在开发中,项目已展现出卓越的性能和效率。

unstructured-inference - 非结构化数据布局解析工具支持多种检测模型

unstructured布局解析文档处理AI模型开源工具Github开源项目

unstructured-inference 是一个专注于文档布局分析的开源项目。它能够从各种文件中提取文档结构和文本内容，适用于需要高效文档处理的场景。该项目提供多种检测模型，如 Detectron2 和 YOLOX，可通过 API 与 unstructured 包集成。它支持自定义模型，为开发者提供了灵活的布局解析解决方案。

axolotl - 多功能AI模型微调工具

AxolotlAI模型微调训练配置Github开源项目

Axolotl是一个功能丰富的AI模型微调工具，支持llama、pythia、falcon等多种Huggingface模型。它提供全微调、LoRA、QLoRA等训练方法，支持自定义配置和多种数据集格式。Axolotl集成了xformer、flash attention等技术，可在单GPU或多GPU环境运行，支持Docker部署，并可将结果记录到wandb或mlflow。该工具为AI模型训练提供了灵活高效的解决方案。

MoA - 多层LLM集成方法MoA在基准测试中超越GPT-4

MoALLMAI模型开源模型自然语言处理Github开源项目

MoA项目开发了一种多层LLM集成方法，在AlpacaEval 2.0评测中得分65.1%，超过GPT-4 Omni的57.5%。项目提供简洁实现代码、交互式演示和评估脚本，便于研究者使用和复现。该方法在多个基准测试中表现优异，为AI系统性能提升提供新思路。

Real-ESRGAN - 开源AI图像超分辨率增强项目

Real-ESRGAN超分辨率图像修复AI模型开源项目Github

Real-ESRGAN是一个开源的AI图像超分辨率增强项目。该项目采用纯合成数据训练,可提升各类图像和视频质量。Real-ESRGAN提供多个预训练模型,适用于通用、动漫、人脸等场景,支持4倍及以上放大。项目包含Python脚本和便携式可执行文件,方便快速使用。此外,Real-ESRGAN开放训练代码,允许在自定义数据集上进行微调。

bot-on-anything - 将AI模型与多种消息应用无缝连接的智能对话机器人平台

AI模型消息应用智能对话机器人ChatGPT微信Github开源项目

bot-on-anything是一个开源项目，通过简单配置即可将多种AI模型接入各类消息应用。支持ChatGPT、GPT-3.0、New Bing和Google Bard等AI模型，以及微信、Telegram、QQ等应用平台。项目架构具有强大扩展性，新增应用或模型可复用现有能力，提高开发效率。适合开发者快速构建和部署智能对话系统。

MobileSAM - 高效轻量化图像分割模型，适用于移动设备

MobileSAM图像分割计算机视觉AI模型深度学习Github开源项目

MobileSAM是一种轻量级图像分割模型,专为移动应用优化。它保持了与原始SAM相当的性能,同时大幅减少了模型参数和推理时间。通过将ViT-H编码器替换为TinyViT,MobileSAM将参数量从615M降至9.66M,推理速度从456ms提升至12ms。该项目提供完整的训练和使用文档,支持ONNX导出,可轻松集成到现有SAM项目中。

metahuman-stream - 实时交互音视频同步对话的开源数字人项目

数字人交互流式AI模型视频处理音视频同步Github开源项目

metahuman-stream是一个开源的实时交互数字人项目，支持音视频同步对话和多种数字人模型。项目具备声音克隆、说话打断和全身视频拼接等功能，支持rtmp和webrtc传输。系统集成了多种TTS模型和LLM对话功能，为数字人应用开发提供丰富选择。该项目适用于商业级数字人应用开发，支持视频编排等高级特性。

VisionCraft - 免费API集成3000多种AI模型支持图像文本和GIF生成

VisionCraft APIAI模型StableDiffusionLLMText2GIFGithub开源项目

VisionCraft API是一个免费服务，集成了超过3000种AI模型。该API支持图像、文本和GIF生成，包含StableDiffusion、LLM和Text2GIF等模块。其中StableDiffusion涵盖SD 1.X、SDXL和SD3多个版本的模型及Lora。API使用简单，提供详细文档和多种联系渠道，方便开发者快速接入和获取支持。

prompt-engineering-for-javascript-developers - AI提示工程速查表，JavaScript开发者实用技巧汇总

Prompt engineeringChatGPTAI模型自然语言处理对话系统Github开源项目

本速查表汇总了AI提示工程的关键原则和策略，专为JavaScript开发者设计。内容涵盖清晰指令编写、结构化输出、few-shot提示等技巧，以及迭代开发方法。同时提供摘要、推理、转换和扩展等任务的实例。这份资源旨在帮助JavaScript开发者快速掌握并提升AI提示工程技能。

gemma-cookbook - Google Gemma轻量级AI模型应用指南与实例

GemmaAI模型开源机器学习GoogleGithub开源项目

Google Gemma是一系列基于Gemini技术的轻量级开源AI模型。本项目收集了Gemma模型的综合指南和实例，涵盖基础应用、微调、部署及工具集成等方面。内容适合不同水平的开发者，为AI应用开发和优化提供参考资源。

MVSEP-MDX23-Colab_v2 - 多模型集成的音乐分离工具支持灵活配置和批量处理

音乐分离AI模型MVSep-MDX23Colab音频处理Github开源项目

MVSEP-MDX23-Colab_v2是一个开源的音乐分离工具，集成了多种先进模型，如MelBand-Roformer、BS-Roformer和MDX-InstHQ4。支持单文件和文件夹批量处理，提供FLAC和16位输出等选项。采用BigShifts算法和改进的分块处理提高了分离质量和效率。工具适合需要高质量音轨分离的音频处理人员使用。

diart - Python实时音频处理框架支持说话人分离和语音活动检测

实时音频处理说话人分类AI模型PythondiartGithub开源项目

diart是一个开源的Python实时音频处理框架，专注于AI驱动的音频应用开发。其核心功能包括实时说话人分离、语音活动检测和增量聚类。该框架集成了说话人分段和嵌入模型，支持自定义AI流程、基准测试和超参数优化。diart还提供WebSocket接口，方便进行Web服务部署。

Chinese-Vicuna - 中文LLaMA模型的低资源指令微调方案

Chinese-VicunaLLaMALoRAAI模型自然语言处理Github开源项目

Chinese-Vicuna项目旨在低资源环境下训练中文LLaMA模型。该方案可在单个RTX-2080TI上进行指令微调，在RTX-3090上实现长上下文多轮对话。具有参数效率高、显卡友好和易部署等特点，支持7B和13B模型微调及垂直领域应用。项目提供完整的训练、推理和部署代码，以及多种优化工具。

ComfyUI-I2VGenXL - I2VGenXL 模型为 ComfyUI 带来高清视频生成新体验

I2VGenXLComfyUI视频生成AI模型图像转视频Github开源项目

ComfyUI-I2VGenXL 项目将 I2VGenXL 模型集成到 ComfyUI 中，实现高质量视频生成。该项目支持 1280*704 分辨率输出，通过正负提示词控制生成过程。其自然动效和优质光影效果使其成为当前表现出色的高清视频模型。项目设计了标准工作流，支持文生视频和图生视频，并集成自动补帧功能，为视频创作提供完整解决方案。

MeshAnythingV2 - 艺术家级3D网格模型生成技术

MeshAnything V23D生成网格生成AI模型计算机图形学Github开源项目

MeshAnything V2是一个创新的3D网格模型生成项目，采用相邻网格分词技术，生成高质量的艺术家级模型。该项目可接受文本、图像或现有网格模型作为输入，输出最多包含1600个面的精细3D模型。项目提供命令行接口和Gradio演示界面，方便用户创建复杂3D模型。适用于需要快速生成高质量3D网格模型的场景。

cog-face-to-many - 面部图像轻松转化为3D、像素艺术、电子游戏、粘土动画和玩具效果

face-to-manyComfyUI3DAI模型视频游戏Github开源项目

face-to-many项目可以将任何面部图像转换为3D、像素艺术、电子游戏、粘土动画和玩具效果。该项目可在Replicate和ComfyUI上运行，提供了必要的自定义节点，如ComfyUI Controlnet Aux、InstantID和IPAdapter Plus等。通过克隆仓库、创建虚拟环境并安装依赖项，用户可以在本地运行该项目。详细的安装和运行指南帮助用户快速启动并体验项目功能。

Efficient-AI-Backbones: 华为诺亚方舟实验室开发的高效AI骨干网络

2024年08月30日

LibreChat: 开源AI聊天平台的革新者

2024年08月30日

LibreChat: 开源AI对话平台的新选择

2024年08月30日

Dalai: 在本地运行LLaMA和Alpaca的最简单方法

2024年08月30日

LoLLMs-WebUI: 一站式大型语言模型和多模态智能系统平台

2024年08月30日

cog-face-to-many: 将人脸转换为多种风格的AI工具

2024年08月30日

LibreChat: 开源的全能AI对话平台

2024年08月30日

Dalai: 在本地运行LLaMA和Alpaca的最简单方法

2024年08月30日

LitGPT: 高性能大语言模型的预训练、微调和部署工具

2024年08月29日

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com