#AI模型
responsible-ai-toolbox - 负责任AI开发与监控的工具集
Responsible AI ToolboxraiwidgetsFairlearnInterpretMLAI模型Github开源项目
Responsible AI Toolbox是一个集合,包含多个工具和库,旨在通过提供模型和数据探索及评估界面,帮助开发者和利益相关者更好地理解和监控AI系统。该工具集包括Responsible AI dashboard、Error Analysis dashboard、Interpretability dashboard、Fairness dashboard等,还涵盖数据处理、数据平衡分析与性别偏见测量等模块。用户可自定义工作流,以优化模型调试和数据驱动决策,确保AI系统的安全性、可靠性和公平性。
WeChatRobot - 基于 WeChatFerry 的微信机器人示例
WeChatRobotPythonWeChatFerryAI模型微信机器人Github开源项目
基于WeChatFerry的微信机器人示例,提供详细的安装步骤与配置指南,快速启动并集成ChatGPT、Tigerbot、ChatGLM和讯飞星火等AI模型。项目支持文档、视频教程与常见问题解答,指导用户实现群聊自动响应与智能交互。包含Python依赖的安装和HTTP接口参考,实现微信机器人的高效开发与应用。
LyCORIS - 用于稳定扩散的其他秩适应实现
LyCORISStable Diffusionfine-tuningLoRAAI模型Github开源项目
LyCORIS项目提供了一系列针对Stable Diffusion的高效参数调优算法,包括LoRA、LoHa、LoKr和DyLoRA等。项目支持多种接口(如ComfyUI和InvokeAI)和训练方案(如kohya-ss和Naifu-Diffusion),并能与PyTorch模块无缝整合。通过不同算法的比较,LyCORIS在保真度、灵活性和训练速度上表现出色。用户可以通过简便的pip安装,探索多样的网络配置和训练方式,实现图像生成的定制化。
chatty - 利用WebGPU在浏览器中本地运行大型语言模型
ChattyAI模型WebGPU浏览器支持离线使用Github开源项目
Chatty利用WebGPU在浏览器中本地运行大型语言模型,保障数据隐私。其特点包括离线使用、聊天记录管理、支持多种开源模型、响应式设计和直观的用户界面。用户还可以加载本地文件、生成并保存聊天记录,并使用语音输入。此AI支持光明和暗模式,适用于所有支持WebGL的设备,极大地丰富了浏览器内的AI体验。
carefree-learn - 简化深度学习流程,支持PyTorch高效训练与推理
PyTorchdeep learningMIT许可模块化AI模型Github开源项目
carefree-learn项目致力于简化深度学习流程,特别是基于PyTorch的训练与推理。采用模块优先、原生兼容的设计原则,支持AI模型推理,符合现代AI的发展趋势,并遵循MIT许可证。项目提供易于使用的接口和高性能模块,适合开发者与使用者。
AlphaZero_Gomoku - AlphaZero算法在五子棋游戏中的应用
AlphaZeroGomokuAI模型训练自我对弈Github开源项目
AlphaZero-Gomoku项目通过自我对弈训练,实现了五子棋(Gomoku)的AI开发。该项目专注于展示AlphaZero算法在相对简单的棋类游戏中的表现,可在数小时内使用单台PC训练出高水平AI模型。支持TensorFlow和PyTorch进行训练,提供实例游戏和操作指南,适合学习AI自我对弈算法和深度学习框架的开发者。
mmdeploy - 多平台支持的深度学习模型部署工具集与推理框架
MMDeployOpenMMLab深度学习模型部署AI模型Github开源项目
MMDeploy是一个开源的深度学习模型部署工具,支持OpenMMLab的各类模型库。该工具集成了多种推理后端,兼容Linux、Windows、macOS和Android等操作系统。提供灵活可扩展的C/C++ SDK框架,支持模型转换、配置编写、性能剖析和量化。详尽文档指导简化了模型部署过程,使其更加高效。
GPTRouter - 多模型AI管理网关,优化响应速度并确保服务稳定
GPTRouterAI模型WritesonicAPI延迟Github开源项目
GPTRouter解决大语言模型的主要问题,通过智能切换和自动重试,确保服务稳定不中断。支持OpenAI、Azure OpenAI、Anthropic等多种语言和图像生成模型,降低响应延迟,提供高效用户体验。利用通用API,便捷集成多模型,是构建稳健AI系统的理想选择。
Phi-3CookBook - Microsoft Phi-3模型家族实践指南
Phi-3微软语言模型AI模型开源Github开源项目
本项目提供Microsoft Phi-3模型家族的全面实践指南,包括环境设置、快速入门、推理、微调和评估等教程。涵盖iOS、Jetson和AI PC等多种硬件设备上的端到端解决方案构建说明。另外还包含实际应用案例和实验室样本,助力开发者深入理解和应用Phi-3模型。
ailia-models - 跨平台AI推理SDK,支持多种编程语言和模型
ailia SDKAI模型跨平台GPU加速高性能推理Github开源项目
ailia SDK 是一款跨平台高速AI推理工具,适用于Windows、Mac、Linux、iOS、Android、Jetson和Raspberry Pi平台,并支持Unity (C#)、Python、Rust、Flutter (Dart) 和 JNI。该SDK通过Vulkan和Metal利用GPU增强计算性能。用户可通过pip3安装并使用丰富的预训练模型库,包括动作识别、异常检测和音频处理等领域。最新更新增加了mahalanobis-ad和t5_base_japanese_ner模型。
VideoCrafter - 突破数据限制的开源视频生成与编辑工具
VideoCrafter2视频生成AI模型文本转视频图像转视频Github开源项目
VideoCrafter2是一个开源的视频生成和编辑工具,致力于克服数据限制,提高视频扩散模型质量。它支持文本到视频和图像到视频的生成,在有限数据条件下实现了更好的动态效果和概念组合。该工具提供高分辨率输出和更高的一致性,为研究人员和创作者提供了实用的视频内容制作方案。
Make-Your-Video - 结合文本和深度信息的智能视频生成模型
Make-Your-Video视频生成AI模型深度学习计算机视觉Github开源项目
Make-Your-Video是一个结合文本和深度信息的视频生成模型。它继承了图像潜在扩散模型的丰富视觉概念,支持长视频推理。该模型可将真实场景和3D建模场景转化为视频,并支持视频重渲染。相比其他方法,Make-Your-Video在视觉质量和动作控制方面表现优异,为视频创作提供了新的可能性。
SimpleTuner - AI模型训练优化脚本集 SimpleTuner
SimpleTuner训练优化机器学习深度学习AI模型Github开源项目
SimpleTuner是一个开源的AI模型训练优化脚本集。它以简单易用为设计理念,支持多GPU训练、方面比例分桶等功能。适用于Flux、PixArt Sigma和Stable Diffusion等多种AI模型的训练。项目提供详细教程和快速入门指南,适合各级用户。作为开源平台,SimpleTuner鼓励学术交流和代码贡献。
llama2.c - 轻量级Llama 2推理引擎 支持多平台高性能部署
Llama 2AI模型自然语言处理开源项目人工智能Github
llama2.c是一个基于Llama 2的开源轻量级推理引擎,支持在Linux、BSD、macOS和Windows等多平台上运行。它提供高性能CPU和GPU推理,并可利用OpenBLAS、Intel MKL等加速库。该项目旨在通过部署小型网络化LLM,在资源受限环境(如学校图书馆)中实现AI应用,推动AI技术的普及和集体智能的发展。
Open-Sora - 开放源代码推动视频生成技术普及化
Open-Sora视频生成开源项目AI模型深度学习Github
Open-Sora是一个开源视频生成项目,支持2-15秒、144p到720p、任意宽高比的文本、图像和视频生成视频功能。项目提供完整的视频处理流程,包括数据预处理、模型训练和推理。通过开放源代码,Open-Sora致力于普及先进的视频生成技术,促进内容创作领域的创新发展。
bark - 多功能文本到音频AI转换模型
Bark文本转语音AI模型多语言音频生成Github开源项目
Bark是Suno开发的开源文本到音频生成模型,能生成逼真的多语言语音、音乐、背景噪音和简单音效。支持笑声、叹息等非语言交流,适用于研究目的。采用transformer架构,直接将文本转换为音频。提供100多种语音预设,可生成随机语音,但不支持自定义语音克隆。该模型为全生成式设计,可能偏离给定脚本,适合各种音频生成任务。
nano-llama31 - 轻量级Llama 3.1架构实现 提供训练微调和推理功能
Llama 3.1AI模型nanoGPT微调深度学习Github开源项目
nano-llama31是一个轻量级的Llama 3.1架构实现,无需额外依赖。该项目聚焦8B基础模型,提供训练、微调和推理功能。相比Meta官方和Hugging Face的版本,代码更为精简。目前正在开发中,已支持Tiny Stories数据集的微调。未来计划增加混合精度训练、分布式数据并行等功能,并考虑扩展到更大规模的Llama 3模型。
RegionSpot - 基于深度学习的智能区域识别开源项目
RegionSpot图像识别区域检测AI模型计算机视觉Github开源项目
RegionSpot是一个开源计算机视觉项目,专门用于识别图像中的任意区域。该项目利用深度学习技术,通过文本提示或边界框输入来定位和分割图像中的特定区域。RegionSpot提供了多个预训练模型,在罕见物体检测中实现了26.3%的框AP和23.4%的掩码AP。项目支持自定义词汇,并提供简单的API接口,适用于多种计算机视觉应用场景。
MobileLLM - 轻量高效的移动设备语言模型
MobileLLM语言模型AI模型深度学习神经网络Github开源项目
MobileLLM是一个针对移动设备优化的大型语言模型项目。该模型通过SwiGLU激活函数、深窄架构、嵌入共享和分组查询注意力等技术,在亿级参数规模下实现了高性能。MobileLLM在零样本常识推理任务中表现出色,不仅在125M和350M参数规模上超越了现有最先进模型,还成功扩展至600M、1B和1.5B参数规模,展示了其在移动设备应用中的潜力。
minRF - 轻量级可扩展整流流变换器实现
Rectified FlowAI模型机器学习图像生成TransformersGithub开源项目
minRF是一个开源项目,提供整流流变换器的轻量级实现,适用于深度学习研究。它结合SD3训练方法和LLaMA-DiT架构,包括支持MNIST和CIFAR数据集的基础版本,以及支持ImageNet训练并引入muP技术的高级版本。项目代码结构清晰,便于理解和定制,为研究人员提供了灵活的整流流模型实验环境。
cookbook - 大型语言模型应用开发与优化实用指南
MistralAI模型示例代码数据处理机器学习Github开源项目
Mistral Cookbook 汇集了社区贡献的大型语言模型应用实例,涵盖基础聊天、嵌入、RAG、函数调用和微调等多个方面。项目包含Mistral AI官方示例和第三方工具集成,为开发者提供了全面的LLM应用开发资源。
gemma_pytorch - Gemma模型的官方PyTorch实现及多平台推理支持
GemmaPyTorchAI模型机器学习自然语言处理Github开源项目
gemma_pytorch项目是Gemma模型的官方PyTorch实现,支持CPU、GPU和TPU多平台推理。项目提供PyTorch和PyTorch/XLA两种实现,涵盖2B、7B、9B和27B等多个模型变体及量化版本。通过Docker可快速部署环境并进行推理。项目还包含最新的Gemma v2和CodeGemma模型支持,为用户提供全面的Gemma模型应用方案。
EET - Transformer模型推理加速引擎
EETTransformer推理AI模型性能优化Github开源项目
EET是一个专注于Transformer模型的PyTorch推理加速引擎。它支持百川、LLaMA等大规模语言模型,提供int8量化功能,可在单GPU上高效运行超大模型。EET通过CUDA内核优化和量化算法显著提升多模态及NLP任务的推理性能,为Transformers和Fairseq提供开箱即用的加速方案。使用EET只需几行代码即可实现模型的高效部署与推理。
seamless_communication - AI多语言实时表情语音翻译系统
SeamlessAI模型多语言翻译语音翻译实时翻译Github开源项目
Seamless Communication项目开发了一系列AI模型,包括SeamlessM4T、SeamlessExpressive和SeamlessStreaming,支持近100种语言的多模态、实时和富有表现力的翻译。该项目通过开源工具和数据集,为研究人员和开发者提供了强大的序列建模组件,推动了更自然、真实的跨语言交流技术发展。
AcademiCodec - 开源音频编解码工具包推动学术创新
AcademiCodec音频编解码开源工具包AI模型音频压缩Github开源项目
AcademiCodec是首个开源音频编解码工具包,包含EnCodec、SoundStream和HiFi-Codec等模型的训练代码和预训练模型。其创新的群组残差向量量化(GRVQ)技术实现了仅需4个码本的高保真音频编解码器HiFi-Codec。该项目利用超过1000小时的公开TTS数据训练,旨在促进音频编解码和生成领域的学术研究与应用开发。
HierSpeechpp - 分层变分推理实现高质量零样本语音合成
HierSpeech++语音合成零样本变分推理AI模型Github开源项目
HierSpeech++项目提出了一种基于分层变分推理的零样本语音合成技术。该技术通过文本到向量框架生成语音表示,显著提高了合成语音的自然度和表现力。项目还引入了语音超分辨率框架,可将音频从16 kHz提升至48 kHz。实验表明,HierSpeech++在零样本语音合成任务中优于现有的基于大语言模型和扩散模型的方法,首次实现了人类水平质量的零样本语音合成。
insanely-fast-whisper - 高效率开源语音转录命令行工具
Whisper语音转录AI模型CLI工具性能优化Github开源项目
Insanely Fast Whisper是一款开源的高性能语音转录命令行工具,基于Transformers、Optimum和Flash Attention技术。该工具支持OpenAI的Whisper Large v3模型,能够在98秒内处理150分钟的音频。通过Flash Attention 2和批处理等优化,大幅提升了转录效率。适用于NVIDIA GPU和Mac设备,用户可通过简单的命令实现快速准确的音频转录。
llama-cpp-python - Python绑定库为LLM集成提供高效接口
llama.cppPython绑定AI模型文本生成OpenAI兼容Github开源项目
llama-cpp-python为llama.cpp提供Python绑定,支持低级C API访问和高级Python API文本补全。该库兼容OpenAI、LangChain和LlamaIndex,支持CUDA、Metal等硬件加速,实现高效LLM推理。它还提供聊天补全和函数调用功能,适用于多种AI应用场景。
FastSAM - 全景分割模型 速度提升50倍且性能可比SAM
Fast Segment Anything图像分割AI模型计算机视觉深度学习Github开源项目
FastSAM是一款基于CNN的高效全景分割模型。仅使用SAM数据集2%的数据,就实现了与SAM相当的性能,同时运行速度提升50倍。支持一切模式、文本提示、框选和点选等多种交互方式。在边缘检测、目标检测等下游任务中,FastSAM展现出优异的零样本迁移能力,为计算机视觉研究开辟新方向。
Live2Diff - 革新视频扩散模型的实时流翻译技术
Live2Diff视频翻译AI模型实时流处理扩散模型Github开源项目
Live2Diff是一款基于视频扩散模型的实时流翻译工具。该项目采用单向时间注意力机制,结合多时间步KV缓存和深度先验技术,实现高效的视频处理。支持DreamBooth和LoRA风格迁移,并通过TensorRT优化性能。在512x512分辨率下,处理速度可达16.43 FPS,为实时视频翻译领域提供了新的技术方案。
openhermes-function-calling - 开源语言模型函数调用能力增强项目
OpenHermes函数调用开源项目AI模型自然语言处理Github
openhermes-function-calling是一个旨在为开源语言模型添加函数调用能力的项目。通过集成此项目,语言模型可以理解、执行和响应特定的函数调用,从而扩展了模型的应用范围。它为开发者提供了新的工具,使他们能够在各种场景中更灵活地应用语言模型,如自然语言处理、对话系统和智能助手等。该项目通过定义标准化的函数接口和参数格式,实现了模型与外部函数的无缝对接,促进了人工智能技术在实际应用中的发展和创新。
ttts - 创新多语言语音合成技术的突破性进展
TTSVQVAE多语言支持声音合成AI模型Github开源项目
TTTS_v4是一个开源的多语言语音合成项目,通过创新的'细节'建模方法改进了传统VQ技术。该项目现已支持中文、英文、日语和韩语,并具有扩展性。TTTS_v4整合了tokenizer训练、VQVAE训练和GPT语音合成技术,旨在生成高质量的自然语音。此外,项目还提供模型微调功能,适用于多种语言场景和个性化需求。
audioseal - 创新语音水印技术 提升音频安全性能
AudioSeal语音水印AI模型开源项目音频处理Github
AudioSeal是一种创新的语音水印技术,在音频中嵌入难以察觉的水印,并能快速准确地检测。该技术具有出色的抗篡改能力,可在编辑后的长音频中识别水印片段。AudioSeal实现了高精度的样本级检测,同时保持音质,适用于大规模和实时应用场景。其检测速度比现有方法快近百倍,为音频安全和版权保护提供了强有力的工具。
segment-anything-2 - 新一代图像和视频分割基础模型
SAM 2图像分割视频分割AI模型计算机视觉Github开源项目
SAM 2是Meta AI研发的图像和视频分割基础模型,扩展了SAM的功能。它采用transformer架构和流式内存,实现实时视频处理。通过模型循环数据引擎,研究团队构建了大规模视频分割数据集SA-V。SAM 2在多种视觉任务中展现出卓越性能,为计算机视觉领域带来新的可能。
Latte - 创新的潜在扩散Transformer视频生成技术
Latte视频生成AI模型深度学习TransformerGithub开源项目
Latte是一种新型视频生成模型,采用潜在扩散Transformer技术。该模型在多个标准数据集上表现优异,并支持文本到视频的生成。项目提供PyTorch实现、预训练模型和相关代码,为视频生成研究提供了重要参考。Latte在建模视频分布方面采用了创新方法,为未来研究提供了新的思路。
cog-face-to-many - 面部图像轻松转化为3D、像素艺术、电子游戏、粘土动画和玩具效果
face-to-manyComfyUI3DAI模型视频游戏Github开源项目
face-to-many项目可以将任何面部图像转换为3D、像素艺术、电子游戏、粘土动画和玩具效果。该项目可在Replicate和ComfyUI上运行,提供了必要的自定义节点,如ComfyUI Controlnet Aux、InstantID和IPAdapter Plus等。通过克隆仓库、创建虚拟环境并安装依赖项,用户可以在本地运行该项目。详细的安装和运行指南帮助用户快速启动并体验项目功能。
相关文章
Efficient-AI-Backbones: 华为诺亚方舟实验室开发的高效AI骨干网络
2024年08月30日
LibreChat: 开源AI聊天平台的革新者
2024年08月30日
LibreChat: 开源AI对话平台的新选择
2024年08月30日
Dalai: 在本地运行LLaMA和Alpaca的最简单方法
2024年08月30日
LoLLMs-WebUI: 一站式大型语言模型和多模态智能系统平台
2024年08月30日
cog-face-to-many: 将人脸转换为多种风格的AI工具
2024年08月30日
LibreChat: 开源的全能AI对话平台
2024年08月30日
Dalai: 在本地运行LLaMA和Alpaca的最简单方法
2024年08月30日
LitGPT: 高性能大语言模型的预训练、微调和部署工具
2024年08月29日