#视频处理

gpupixel - 跨平台高性能图像与视频滤镜库,轻松集成
Github开源项目跨平台视频处理高性能GPUPixel实时滤镜
GPUPixel是一个实时高性能图像和视频滤镜库,基于OpenGL/ES开发,支持iOS、Android、Mac、Windows和Linux平台。采用C++11编写,内置商用级美颜滤镜。GPUPixel体积小巧,易于编译和集成,适合需要跨平台滤镜功能的开发者。
backgroundremover - AI图像与视频背景移除工具
Github开源项目图像处理BackgroundRemoverAI背景移除视频处理Python工具热门
BackgroundRemover是一款使用AI技术为图像和视频去除背景的命令行工具。该工具支持高效的背景处理能力,提供多种模型选择及高级设置以适应不同的处理需求。无论是静态图像还是动态视频,BackgroundRemover均能高质量完成背景透明处理,是设计师和视频制作人员的得力助手。
X-AnyLabeling - 图像处理与多模型支持的标注工具
Github开源项目模型支持视频处理图像识别X-AnyLabeling人工智能标注
X-AnyLabeling是一个集合先进模型技术的强大标注工具,集成AI推理引擎,支持图像与视频处理。该工具支持单帧与批量预测,适用于分类、检测、分割和OCR等视觉任务,兼容多种标注样式与主流标签格式。通过使用GPU加速推理,X-AnyLabeling 保证高效率和高精度的处理性能,突出其技术优势。
dolphin - 通用视频互动平台,基于大型语言模型的视频理解、处理与生成
大型语言模型Github开源项目视频生成视频处理视频理解Dolphin
Dolphin是一个基于大型语言模型的通用视频互动平台,专注于视频理解、处理和生成。该平台支持视频问答、视频剪辑、字幕添加、音频提取及生成等功能,旨在提升视频处理的智能化水平。用户可通过文本生成视频、姿态到视频转换及视频图像转换等多种方式进行创作。项目持续更新,欢迎社区贡献和拉取请求,适用于北航和南洋理工大学的科研项目。
subvert - 生成视频字幕、章节和摘要的辅助工具
Github开源项目OpenAI字幕生成视频处理DockerSubvert
Subvert是一款开源工具,可以借助OpenAI技术快速生成视频字幕、章节和摘要。只需通过Docker进行简单安装和一行命令即可启动应用,实现高效的视频处理。用户可通过调整项目设置生成所需的章节和摘要,非常适合YouTube等平台上的内容创作者。该项目仍在开发中,欢迎反馈问题以优化用户体验。
Macaw-LLM - 多模态数据与语言模型的前沿整合技术
Github开源项目视频处理文本处理多模态语言模型Macaw-LLM图像集成
Macaw-LLM项目通过整合图像、视频、音频和文本数据,创新了多模态语言建模。该项目基于CLIP、Whisper和LLaMA等先进模型,实现了高效的数据对齐和一步到位的指令微调,创建了丰富的多模态指令数据集,涵盖多种任务。项目强调简单快速的对齐策略,展示出强大的多模态处理能力,有效提升了跨模态数据的解析和理解。
FILTER.js - 用于图像和视频处理的纯JavaScript库
Github开源项目图像处理JavaScript视频处理WebGLFILTER.js
FILTER.js是一款纯JavaScript库,专注于图像和视频处理,支持HTML5特性如Canvas、Web Workers、WebAssembly和WebGL,并兼容Node.js环境。提供多种功能强大的滤镜和插件,实现高效的CPU和GPU并行处理。支持自定义构建,适用于各种应用需求。
ComfyUI-AdvancedLivePortrait - 实时预览与高级表情编辑
Github开源项目AI绘图视频处理ComfyUI表情编辑动画制作
ComfyUI-AdvancedLivePortrait是一个开源的人像动画工具,提供实时预览功能。这个项目允许用户编辑照片中的面部表情,将表情插入视频,创建多表情动画,并从样本照片中提取表情。它支持部分表情提取,可通过ComfyUI-Manager安装。该工具提供工作流和样本数据,支持视频表情添加以及表情数据的保存和加载。
roop-unleashed - 开源AI换脸工具roop-unleashed实现高质量图像和视频换脸
Github开源项目图像处理视频处理AI换脸深度伪造roop-unleashed
roop-unleashed是一个开源的AI换脸项目,无需训练即可实现高质量图像和视频换脸。该工具提供浏览器图形界面,支持多种换脸模式、批量处理、遮罩生成和人脸增强等功能。项目还包括实时换脸摄像头和视频处理工具,主要用于技术研究和学术目的。roop-unleashed定期更新,不断改进性能和用户体验。
Deep-Live-Cam - 开源实时人脸替换工具
人工智能Github开源项目图像处理视频处理AI换脸Deep-Live-Cam
Deep-Live-Cam是一个开源的实时人脸替换项目,支持视频和网络摄像头人脸替换。该工具采用深度学习算法,提供GPU加速,可快速完成高质量人脸替换。项目面向艺术家和内容创作者,注重伦理使用,内置不当内容检测。Deep-Live-Cam安装简便,界面直观,为AI生成媒体领域提供了实用解决方案。
TurnVoice - 强大的视频声音转换和多语种翻译命令行工具
Github开源项目AI命令行工具视频处理语音转换TurnVoice
TurnVoice是一款功能丰富的命令行工具,专注于视频声音转换和多语种翻译。该工具集成了多种语音合成引擎,包括免费的Coqui TTS在内的多个选项。它允许用户精确控制渲染过程,提供句子文本、时间和语音的自定义选项。TurnVoice还具备保留原始背景音频和本地视频处理的能力,适用于各类视频创作需求。
vid2avatar - 自监督场景分解实现野外视频3D人物重建
Github开源项目视频处理自监督学习场景分解Vid2Avatar3D头像重建
Vid2Avatar是一个开源项目,采用自监督场景分解方法从未处理的野外视频中重建3D人物模型。该方法无需额外监督,通过分离人物和背景实现精确建模。项目包含完整代码、预处理数据集和使用说明,适用于复杂场景的人物建模。
Wav2Lip - 先进的AI视频口型同步技术
Github开源项目深度学习视频处理Wav2Lip音频处理唇形同步
Wav2Lip是一个开源项目,采用先进的人工智能技术实现高精度的视频口型同步。该技术适用于各种身份、声音和语言,包括CGI人脸和合成语音。项目提供完整的训练和推理代码以及预训练模型,方便用户将任意音频与视频进行口型同步。Wav2Lip在多个基准数据集上展现出领先性能,为视频制作和内容创作领域提供了有力支持。
VSET - 开源视频超分辨率和批量处理软件
Github开源项目视频处理开源工具VSET视频超分辨率vapoursynth
VSET是基于Vapoursynth的开源视频处理软件,主要用于提升视频分辨率。支持动漫和实拍视频超分辨率、补帧和常用滤镜应用。具备预览、字幕音频处理、自定义参数、批量处理和多开等功能。适用于Windows系统,兼容NVIDIA、AMD和Intel显卡。VSET为视频处理爱好者提供了全面的解决方案。
dreamscene4d - 从单目视频生成动态多目标3D场景的突破性技术
Github开源项目计算机视觉视频处理多目标跟踪DreamScene4D3D场景生成
DreamScene4D是一种从单目视频生成动态多目标3D场景的开源技术。它采用3D高斯和形变优化方法,能处理不同长度的视频和多个目标。项目提供自动化和分阶段优化脚本,支持处理有遮挡和无遮挡的视频。DreamScene4D在复杂场景和长视频序列处理方面表现优异,为计算机视觉和图形学研究提供了新思路。
VideoProcessingFramework - GPU加速视频处理框架 提供编解码和格式转换功能
Github开源项目视频处理NVIDIAGPU加速VideoProcessingFrameworkPyNvVideoCodec
VideoProcessingFramework是一个开源的视频处理框架,由C++库和Python绑定组成。它利用GPU硬件加速实现高效的视频解码、编码、转码以及色彩空间和像素格式转换。该框架支持将GPU内存中的视频帧直接导出为PyTorch张量,避免了额外的数据传输。适用于Linux和Windows平台,依赖NVIDIA驱动、CUDA和FFMPEG。目前正逐步被功能类似但API更简洁的PyNvVideoCodec库取代。
TemporalKit - 优化Stable Diffusion视频的时间稳定性和连贯性
Github开源项目Stable Diffusion视频处理EbSynthTemporalKit关键帧
TemporalKit是Stable Diffusion的扩展插件,旨在提高AI生成视频的时间稳定性。该工具支持关键帧提取、图像处理和EbSynth集成,可生成流畅连贯的视频效果。它简化了视频处理流程,支持批量处理,并提供详细教程。TemporalKit适合需要提升AI视频质量的创作者使用,有助于生成更加稳定和连贯的视频内容。
CoDeF - 视频内容变形场技术实现时序一致的视频处理
Github开源项目视频处理时间一致性CoDeF内容变形场图像算法提升
CoDeF项目提出了内容变形场这一新型视频表示方法。它包含规范内容场和时间变形场两个部分,能够将图像算法应用于视频处理。这种设计实现了高质量的视频转换和关键点跟踪,同时保持了良好的跨帧一致性。CoDeF还能跟踪水和烟雾等非刚性物体,为视频处理带来新的可能性。
mae_st - 掩码自编码器在时空学习和视频重建中的应用
Github开源项目预训练模型视频处理PyTorch实现Masked Autoencoders时空学习
mae_st项目是一个基于PyTorch实现的掩码自编码器时空学习框架。该项目提供预训练模型、微调和测试代码,支持在Kinetics数据集上进行训练和评估。项目特色包括交互式可视化演示,展示不同掩码率下的MAE输出效果。研究人员可借助此工具开展视频理解和重建相关研究,深入探索时空学习领域。
video-retalking - 音频驱动的实时视频唇形同步编辑系统
Github开源项目视频处理AI技术唇形同步人脸编辑VideoReTalking
VideoReTalking是一个创新系统,通过输入音频编辑真实世界说话人头视频的面部,生成高质量且唇形同步的输出视频。系统将任务分为三步:生成标准表情面部视频、实现音频驱动的唇形同步,以及增强面部真实感。整个过程采用基于机器学习的方法,无需人工干预即可自动完成。
LWM - 百万级上下文多模态AI模型突破性成果
Github开源项目多模态模型视频处理长文本理解Large World ModelRingAttention
Large World Model (LWM)是一种创新的多模态AI模型,具备百万级上下文处理能力。LWM通过分析大规模视频和文本数据,实现了语言、图像和视频的综合理解与生成。该项目开源了多个模型版本,支持处理超长文本和视频,在复杂检索和长视频理解等任务中表现出色,为AI技术发展提供了新的可能性。
StreamPot - 开源媒体处理框架 简化应用内视频转换
Github开源项目视频处理客户端库StreamPot媒体转换
StreamPot是一个开源的媒体处理框架,为应用程序提供媒体转换功能。它支持视频裁剪、音频提取和格式转换等操作。开发者可通过API轻松集成媒体处理功能,适用于工作流程中需要媒体转换的项目。StreamPot提供本地部署和托管版本两种使用方式,目前仍处于早期开发阶段。
metahuman-stream - 实时交互音视频同步对话的开源数字人项目
Github开源项目AI模型视频处理数字人交互流式音视频同步
metahuman-stream是一个开源的实时交互数字人项目,支持音视频同步对话和多种数字人模型。项目具备声音克隆、说话打断和全身视频拼接等功能,支持rtmp和webrtc传输。系统集成了多种TTS模型和LLM对话功能,为数字人应用开发提供丰富选择。该项目适用于商业级数字人应用开发,支持视频编排等高级特性。
ffmpeg.wasm - WebAssembly实现的浏览器端FFmpeg解决方案
Github开源项目视频处理音频处理WebAssembly浏览器ffmpeg.wasm
ffmpeg.wasm是FFmpeg的WebAssembly/JavaScript实现,使浏览器能够直接处理视频和音频。该项目支持在浏览器中进行媒体文件的录制、转换和流传输,为Web开发提供了强大的多媒体处理工具。ffmpeg.wasm简化了Web应用中的音视频处理流程,使开发者能够更便捷地实现复杂的多媒体功能。
VSGAN-tensorrt-docker - 基于TensorRT的视频超分辨率和帧插值加速方案
Github开源项目视频处理TensorRT超分辨率帧插值深度学习加速
该项目利用TensorRT加速视频超分辨率和帧插值模型,致力于提供最快的推理速度。支持Rife、RealCUGAN、GMFupSS等多种模型架构,同时提供CUDA和TensorRT版本。项目集成了自动去重、镜头边界检测等功能,并支持多GPU。通过Docker,可以方便地部署和使用这些高性能模型。
jepa - 先进的自监督视频表征学习方法
Github开源项目视频处理自监督学习视觉表示V-JEPA特征预测
V-JEPA是一种创新的视频联合嵌入预测架构,专为自监督学习而设计。该方法仅通过观察VideoMix2M数据集的视频像素进行训练,不依赖预训练图像编码器、文本信息、负样本、人工标注或像素级重建。V-JEPA生成的视觉表征具有多功能性,能够在各种下游视频和图像任务中实现优异性能,无需对模型参数进行微调。其特征预测展现出良好的时空一致性,并可通过条件扩散模型转化为可解释的像素表示。
AI Face Swap Video Online Free - AI视频换脸工具助您轻松实现人脸替换
人工智能视频处理AI工具在线工具AI换脸免费软件
该网站提供在线AI视频换脸服务,采用先进算法快速准确替换视频中的人脸。工具界面友好,支持多种格式,具备实时编辑功能。用户只需上传源视频和目标视频,即可在短时间内获得高质量、无水印的换脸视频。适用于个人创意和商业项目,为视频创作提供更多可能性。
BgRem - 全方位AI图像视频创作与编辑工具集
视频处理AI工具内容创作图像编辑BGREM AI
BgRem提供多种AI驱动的图像和视频编辑工具,包括艺术生成、背景移除、AI自拍生成和室内设计等功能。该平台旨在提高工作效率,简化创作流程,激发用户创意。凭借直观的界面、丰富的功能和优质的性价比,BgRem赢得了全球用户的好评,为内容创作者、自由职业者和企业家提供了实用的创作解决方案。
HitPaw - AI多媒体创意工具集成平台
视频处理AI技术AI工具图像编辑音频工具HitPaw
HitPaw集成了多种AI驱动的多媒体创意工具,包括视频编辑、音频处理和图像增强等功能。平台提供视频转换、声音变声、照片AI编辑等全方位解决方案,旨在简化创作流程,提升内容质量。无论专业创作者还是普通用户,都可以在HitPaw找到适合的工具来实现创意构想。
pinokio - 一站式AI脚本资源与部署解决方案
人工智能自然语言处理语音合成视频处理图像生成AI工具
pinokio作为专业的AI脚本市场和部署平台,汇集了图像生成、视频处理、语音合成等多领域的AI资源。平台支持一键部署功能,简化了AI工具的使用流程。通过提供便捷的工具集成环境,pinokio致力于推动AI技术的普及和应用,为AI爱好者和开发者创造价值。
Clips AI - Python库实现长视频智能分段和宽高比调整
视频处理AI工具开源库视频剪辑Clips AI自动转换
Clips AI是一个开源Python库,能自动将长视频转换为多个短片段,实现AI视频处理和自动视频分段。这个工具主要针对播客、访谈、演讲等以音频为主的叙事类视频。通过分析视频的文字记录,Clips AI可以智能识别并创建片段,同时支持将视频宽高比从16:9动态调整为9:16。该库集成了WhisperX用于视频转录和Pyannote用于说话人分离,为开发者提供了高效的视频处理解决方案。
Transcript.LOL - 全能音视频转录分析平台 助力内容创作与学习
视频处理AI工具音频处理内容分析会议记录转录工具
Transcript.LOL提供高效的音视频内容转录和智能分析服务。支持将播客、视频和会议内容转换为文字,并自动生成摘要、提取主题、实现上下文问答。平台具备多人对话识别和自动标点功能,便于快速获取关键信息。适用于内容创作者和中小企业,有助于提升学习效率和工作生产力。
Picsi.Ai - AI先进图像和视频人脸编辑平台
图像处理人脸交换视频处理AI工具PicsiAI变形
Picsi.Ai是基于InsightFace技术的AI图像和视频人脸编辑平台。提供高分辨率人脸替换、多人脸替换、视频和GIF人脸替换、表情匹配、年龄转换等功能。支持创建专业头像、实时人脸变形和动画制作。通过网页应用和Discord机器人提供服务,有免费和付费计划可选。Picsi.Ai为创意工作者和普通用户带来丰富的人脸编辑体验。
vverse - 革新视频编辑的AI生态系统
视频处理AI工具内容创作AI视频编辑VideoVerse体育直播
vverse利用AI技术革新视频编辑,提供高效的内容转换和发布方案。其主打产品Magnifi专注于体育赛事精彩集锦生成,Illusto则致力于简化视频编辑流程。vverse为各行业用户提供创作工具,助力打造吸引眼球的视频内容,优化观看体验,推动业务增长。
录咖 - 智能音视频创作与处理一站式平台
视频处理AI工具云存储在线工具AI音视频多媒体服务
录咖是一个智能多媒体服务平台,提供全面的音视频解决方案。集成AI视频生成、对话、字幕生成、语音转文字等功能,同时支持在线录屏、视频剪辑、音频提取。平台设计简洁,可在线操作,提供云存储和快速分享。适用于教育培训、游戏直播、金融报告和医疗研讨等领域,提高视频创作效率。
only one AI - 全球最大的AI工具导航和目录平台
图像处理视频处理AI工具内容生成音频处理
only one AI收录超过30,000个AI工具,涵盖内容创作、营销、视频制作、编程等领域。提供全面的AI工具目录和比较信息,助力用户提升工作效率和创造力。作为全球最大的AI工具导航平台,汇集2024年度最佳AI解决方案。