Logo

#视频处理

Logo of gpupixel
gpupixel
GPUPixel是一个实时高性能图像和视频滤镜库,基于OpenGL/ES开发,支持iOS、Android、Mac、Windows和Linux平台。采用C++11编写,内置商用级美颜滤镜。GPUPixel体积小巧,易于编译和集成,适合需要跨平台滤镜功能的开发者。
Logo of subvert
subvert
Subvert是一款开源工具,可以借助OpenAI技术快速生成视频字幕、章节和摘要。只需通过Docker进行简单安装和一行命令即可启动应用,实现高效的视频处理。用户可通过调整项目设置生成所需的章节和摘要,非常适合YouTube等平台上的内容创作者。该项目仍在开发中,欢迎反馈问题以优化用户体验。
Logo of roop-unleashed
roop-unleashed
roop-unleashed是一个开源的AI换脸项目,无需训练即可实现高质量图像和视频换脸。该工具提供浏览器图形界面,支持多种换脸模式、批量处理、遮罩生成和人脸增强等功能。项目还包括实时换脸摄像头和视频处理工具,主要用于技术研究和学术目的。roop-unleashed定期更新,不断改进性能和用户体验。
Logo of Wav2Lip
Wav2Lip
Wav2Lip是一个开源项目,采用先进的人工智能技术实现高精度的视频口型同步。该技术适用于各种身份、声音和语言,包括CGI人脸和合成语音。项目提供完整的训练和推理代码以及预训练模型,方便用户将任意音频与视频进行口型同步。Wav2Lip在多个基准数据集上展现出领先性能,为视频制作和内容创作领域提供了有力支持。
Logo of TemporalKit
TemporalKit
TemporalKit是Stable Diffusion的扩展插件,旨在提高AI生成视频的时间稳定性。该工具支持关键帧提取、图像处理和EbSynth集成,可生成流畅连贯的视频效果。它简化了视频处理流程,支持批量处理,并提供详细教程。TemporalKit适合需要提升AI视频质量的创作者使用,有助于生成更加稳定和连贯的视频内容。
Logo of LWM
LWM
Large World Model (LWM)是一种创新的多模态AI模型,具备百万级上下文处理能力。LWM通过分析大规模视频和文本数据,实现了语言、图像和视频的综合理解与生成。该项目开源了多个模型版本,支持处理超长文本和视频,在复杂检索和长视频理解等任务中表现出色,为AI技术发展提供了新的可能性。
Logo of VSGAN-tensorrt-docker
VSGAN-tensorrt-docker
该项目利用TensorRT加速视频超分辨率和帧插值模型,致力于提供最快的推理速度。支持Rife、RealCUGAN、GMFupSS等多种模型架构,同时提供CUDA和TensorRT版本。项目集成了自动去重、镜头边界检测等功能,并支持多GPU。通过Docker,可以方便地部署和使用这些高性能模型。
Logo of HitPaw
HitPaw
HitPaw集成了多种AI驱动的多媒体创意工具,包括视频编辑、音频处理和图像增强等功能。平台提供视频转换、声音变声、照片AI编辑等全方位解决方案,旨在简化创作流程,提升内容质量。无论专业创作者还是普通用户,都可以在HitPaw找到适合的工具来实现创意构想。
Logo of Picsi.Ai
Picsi.Ai
Picsi.Ai是基于InsightFace技术的AI图像和视频人脸编辑平台。提供高分辨率人脸替换、多人脸替换、视频和GIF人脸替换、表情匹配、年龄转换等功能。支持创建专业头像、实时人脸变形和动画制作。通过网页应用和Discord机器人提供服务,有免费和付费计划可选。Picsi.Ai为创意工作者和普通用户带来丰富的人脸编辑体验。
Logo of Video Summarizer
Video Summarizer
Video Summarizer是一款智能视频内容摘要工具,利用人工智能技术快速分析长视频并生成简洁的教育性摘要。支持多语言输出,提高学习和信息获取效率。适合学生、研究人员和专业人士快速了解视频核心内容。该工具利用AI技术分析长视频,生成简洁的多语言教育摘要,为学习和研究提供便利,大大提升信息获取效率。
Logo of Beauty AI
Beauty AI
Beauty AI为用户提供AI驱动的人脸替换技术,支持照片和视频处理。利用先进算法,快速生成高质量换脸效果,适用于多种应用场景。既可用于创作有趣内容,也可应用于实用目的如化妆效果预览。界面直观易用,新用户可免费体验3次,是一个功能丰富的AI换脸解决方案。
Logo of semantic-chunkers
semantic-chunkers
Semantic Chunkers是一个开源的多模态分块库,专注于对文本、视频和音频进行智能分块。通过语义分析,这个Python库提高了AI和数据处理的效率与准确性。它提供视频分块等功能,并得到活跃社区的支持和持续更新。对于处理大量多媒体数据的AI开发者和研究人员而言,Semantic Chunkers提供了强大的数据处理能力。
Logo of ai_webui
ai_webui
AI-WEBUI是一个开源的通用AI创作平台,集成图像分割、物体追踪、语音识别等基础功能,以及聊天机器人、视频翻译等高级功能。支持ChatGLM2、SAM和Whisper等多种AI模型,可显著提高短视频创作效率。通过简单的界面操作,用户能轻松完成复杂AI任务,适合个人和专业用户使用。
Logo of backgroundremover
backgroundremover
BackgroundRemover是一款使用AI技术为图像和视频去除背景的命令行工具。该工具支持高效的背景处理能力,提供多种模型选择及高级设置以适应不同的处理需求。无论是静态图像还是动态视频,BackgroundRemover均能高质量完成背景透明处理,是设计师和视频制作人员的得力助手。
Logo of Macaw-LLM
Macaw-LLM
Macaw-LLM项目通过整合图像、视频、音频和文本数据,创新了多模态语言建模。该项目基于CLIP、Whisper和LLaMA等先进模型,实现了高效的数据对齐和一步到位的指令微调,创建了丰富的多模态指令数据集,涵盖多种任务。项目强调简单快速的对齐策略,展示出强大的多模态处理能力,有效提升了跨模态数据的解析和理解。
Logo of Deep-Live-Cam
Deep-Live-Cam
Deep-Live-Cam是一个开源的实时人脸替换项目,支持视频和网络摄像头人脸替换。该工具采用深度学习算法,提供GPU加速,可快速完成高质量人脸替换。项目面向艺术家和内容创作者,注重伦理使用,内置不当内容检测。Deep-Live-Cam安装简便,界面直观,为AI生成媒体领域提供了实用解决方案。
Logo of VSET
VSET
VSET是基于Vapoursynth的开源视频处理软件,主要用于提升视频分辨率。支持动漫和实拍视频超分辨率、补帧和常用滤镜应用。具备预览、字幕音频处理、自定义参数、批量处理和多开等功能。适用于Windows系统,兼容NVIDIA、AMD和Intel显卡。VSET为视频处理爱好者提供了全面的解决方案。
Logo of CoDeF
CoDeF
CoDeF项目提出了内容变形场这一新型视频表示方法。它包含规范内容场和时间变形场两个部分,能够将图像算法应用于视频处理。这种设计实现了高质量的视频转换和关键点跟踪,同时保持了良好的跨帧一致性。CoDeF还能跟踪水和烟雾等非刚性物体,为视频处理带来新的可能性。
Logo of StreamPot
StreamPot
StreamPot是一个开源的媒体处理框架,为应用程序提供媒体转换功能。它支持视频裁剪、音频提取和格式转换等操作。开发者可通过API轻松集成媒体处理功能,适用于工作流程中需要媒体转换的项目。StreamPot提供本地部署和托管版本两种使用方式,目前仍处于早期开发阶段。
Logo of jepa
jepa
V-JEPA是一种创新的视频联合嵌入预测架构,专为自监督学习而设计。该方法仅通过观察VideoMix2M数据集的视频像素进行训练,不依赖预训练图像编码器、文本信息、负样本、人工标注或像素级重建。V-JEPA生成的视觉表征具有多功能性,能够在各种下游视频和图像任务中实现优异性能,无需对模型参数进行微调。其特征预测展现出良好的时空一致性,并可通过条件扩散模型转化为可解释的像素表示。
Logo of pinokio
pinokio
pinokio作为专业的AI脚本市场和部署平台,汇集了图像生成、视频处理、语音合成等多领域的AI资源。平台支持一键部署功能,简化了AI工具的使用流程。通过提供便捷的工具集成环境,pinokio致力于推动AI技术的普及和应用,为AI爱好者和开发者创造价值。
Logo of vverse
vverse
vverse利用AI技术革新视频编辑,提供高效的内容转换和发布方案。其主打产品Magnifi专注于体育赛事精彩集锦生成,Illusto则致力于简化视频编辑流程。vverse为各行业用户提供创作工具,助力打造吸引眼球的视频内容,优化观看体验,推动业务增长。
Logo of Pipeless Agents
Pipeless Agents
Pipeless Agents是一个创新的计算机视觉平台,通过简单的三步流程实现视觉AI代理的创建。平台支持多种视频输入源,自动提取结构化数据和事件,并允许用户自定义代理逻辑。这使得Pipeless Agents能够应用于工业安全、办公管理、家庭自动化和智慧城市等多个领域。该平台还特别注重数据隐私和安全,提供无录像处理、自定义区域分析和端到端加密等功能,确保用户数据的安全性。
Logo of Komodo
Komodo
Komodo是一款综合性屏幕录制和视频编辑工具,提供无限制免费录屏和无时长限制的视频制作。特点包括轻量级设计、快速处理、即时分享、AI辅助功能和视频分析。支持创建指南和SOP文档,适用于Windows和Mac平台。该工具为用户提供清晰的录制体验,旨在提高协作效率和简化想法分享过程。
Logo of tram
tram
TRAM是一个开源的4D人体捕捉系统,专门用于从非受控视频中估计3D人体的全局轨迹和动作。该系统集成了目标跟踪、SLAM和4D人体捕捉技术,能在世界坐标系中精确重建人体运动。TRAM的工作流程包括相机位姿估计、人体检测跟踪和4D人体重建,为复杂场景中的人体运动分析提供了有力工具。
Logo of ffmpeg-kit
ffmpeg-kit
FFmpegKit是一个跨平台FFmpeg封装库,支持在Android、iOS、Linux等系统上使用FFmpeg功能。它提供FFmpeg原生库构建脚本、命令执行包装库和预编译二进制包。基于FFmpeg 4.5及以上版本开发,支持多种可选系统和外部库,为开发者提供灵活的音视频处理能力。
Logo of X-AnyLabeling
X-AnyLabeling
X-AnyLabeling是一个集合先进模型技术的强大标注工具,集成AI推理引擎,支持图像与视频处理。该工具支持单帧与批量预测,适用于分类、检测、分割和OCR等视觉任务,兼容多种标注样式与主流标签格式。通过使用GPU加速推理,X-AnyLabeling 保证高效率和高精度的处理性能,突出其技术优势。
Logo of FILTER.js
FILTER.js
FILTER.js是一款纯JavaScript库,专注于图像和视频处理,支持HTML5特性如Canvas、Web Workers、WebAssembly和WebGL,并兼容Node.js环境。提供多种功能强大的滤镜和插件,实现高效的CPU和GPU并行处理。支持自定义构建,适用于各种应用需求。
Logo of TurnVoice
TurnVoice
TurnVoice是一款功能丰富的命令行工具,专注于视频声音转换和多语种翻译。该工具集成了多种语音合成引擎,包括免费的Coqui TTS在内的多个选项。它允许用户精确控制渲染过程,提供句子文本、时间和语音的自定义选项。TurnVoice还具备保留原始背景音频和本地视频处理的能力,适用于各类视频创作需求。
Logo of dreamscene4d
dreamscene4d
DreamScene4D是一种从单目视频生成动态多目标3D场景的开源技术。它采用3D高斯和形变优化方法,能处理不同长度的视频和多个目标。项目提供自动化和分阶段优化脚本,支持处理有遮挡和无遮挡的视频。DreamScene4D在复杂场景和长视频序列处理方面表现优异,为计算机视觉和图形学研究提供了新思路。
Logo of mae_st
mae_st
mae_st项目是一个基于PyTorch实现的掩码自编码器时空学习框架。该项目提供预训练模型、微调和测试代码,支持在Kinetics数据集上进行训练和评估。项目特色包括交互式可视化演示,展示不同掩码率下的MAE输出效果。研究人员可借助此工具开展视频理解和重建相关研究,深入探索时空学习领域。
Logo of metahuman-stream
metahuman-stream
metahuman-stream是一个开源的实时交互数字人项目,支持音视频同步对话和多种数字人模型。项目具备声音克隆、说话打断和全身视频拼接等功能,支持rtmp和webrtc传输。系统集成了多种TTS模型和LLM对话功能,为数字人应用开发提供丰富选择。该项目适用于商业级数字人应用开发,支持视频编排等高级特性。
Logo of AI Face Swap Video Online Free
AI Face Swap Video Online Free
该网站提供在线AI视频换脸服务,采用先进算法快速准确替换视频中的人脸。工具界面友好,支持多种格式,具备实时编辑功能。用户只需上传源视频和目标视频,即可在短时间内获得高质量、无水印的换脸视频。适用于个人创意和商业项目,为视频创作提供更多可能性。
Logo of Clips AI
Clips AI
Clips AI是一个开源Python库,能自动将长视频转换为多个短片段,实现AI视频处理和自动视频分段。这个工具主要针对播客、访谈、演讲等以音频为主的叙事类视频。通过分析视频的文字记录,Clips AI可以智能识别并创建片段,同时支持将视频宽高比从16:9动态调整为9:16。该库集成了WhisperX用于视频转录和Pyannote用于说话人分离,为开发者提供了高效的视频处理解决方案。
Logo of 录咖
录咖
录咖是一个智能多媒体服务平台,提供全面的音视频解决方案。集成AI视频生成、对话、字幕生成、语音转文字等功能,同时支持在线录屏、视频剪辑、音频提取。平台设计简洁,可在线操作,提供云存储和快速分享。适用于教育培训、游戏直播、金融报告和医疗研讨等领域,提高视频创作效率。
Logo of Stability AI Video Generator
Stability AI Video Generator
Stability AI Video Generator是一款创新的AI视频生成工具,能将静态图片转换为动态视频。使用者只需上传照片,等待系统处理,即可下载生成的视频。目前处于研究预览阶段,主要应用于教育和创意领域。该工具提供了简便的视频内容创作方式,展现了AI在视频生成技术上的发展潜力。
Logo of Mango AI
Mango AI
Mango AI作为专业的人工智能网站导航平台,汇集了3000多个精选AI网站资源。平台涵盖图像生成、视频制作、语音转文字、财务分析等多个领域的AI工具和服务。这里提供最新AI技术进展和创新应用,方便用户探索并找到合适的人工智能解决方案。Mango AI旨在成为AI资源的集中地,为AI爱好者和专业人士提供便捷的一站式导航服务。
Logo of videollm-online
videollm-online
VideoLLM-online是一款针对流媒体视频的在线大语言模型。该模型支持视频流实时交互,可主动更新响应,如记录活动变化和提供实时指导。项目通过创新的数据合成方法将离线注释转化为流式对话数据,并采用并行化推理技术实现高速处理,在A100 GPU上处理速度可达10-15 FPS。VideoLLM-online在在线和离线环境中均表现出色,能高效处理长达10分钟的视频,为视频理解与交互领域带来新的可能性。
Logo of dolphin
dolphin
Dolphin是一个基于大型语言模型的通用视频互动平台,专注于视频理解、处理和生成。该平台支持视频问答、视频剪辑、字幕添加、音频提取及生成等功能,旨在提升视频处理的智能化水平。用户可通过文本生成视频、姿态到视频转换及视频图像转换等多种方式进行创作。项目持续更新,欢迎社区贡献和拉取请求,适用于北航和南洋理工大学的科研项目。
Logo of ComfyUI-AdvancedLivePortrait
ComfyUI-AdvancedLivePortrait
ComfyUI-AdvancedLivePortrait是一个开源的人像动画工具,提供实时预览功能。这个项目允许用户编辑照片中的面部表情,将表情插入视频,创建多表情动画,并从样本照片中提取表情。它支持部分表情提取,可通过ComfyUI-Manager安装。该工具提供工作流和样本数据,支持视频表情添加以及表情数据的保存和加载。
Logo of vid2avatar
vid2avatar
Vid2Avatar是一个开源项目,采用自监督场景分解方法从未处理的野外视频中重建3D人物模型。该方法无需额外监督,通过分离人物和背景实现精确建模。项目包含完整代码、预处理数据集和使用说明,适用于复杂场景的人物建模。
Logo of VideoProcessingFramework
VideoProcessingFramework
VideoProcessingFramework是一个开源的视频处理框架,由C++库和Python绑定组成。它利用GPU硬件加速实现高效的视频解码、编码、转码以及色彩空间和像素格式转换。该框架支持将GPU内存中的视频帧直接导出为PyTorch张量,避免了额外的数据传输。适用于Linux和Windows平台,依赖NVIDIA驱动、CUDA和FFMPEG。目前正逐步被功能类似但API更简洁的PyNvVideoCodec库取代。
Logo of video-retalking
video-retalking
VideoReTalking是一个创新系统,通过输入音频编辑真实世界说话人头视频的面部,生成高质量且唇形同步的输出视频。系统将任务分为三步:生成标准表情面部视频、实现音频驱动的唇形同步,以及增强面部真实感。整个过程采用基于机器学习的方法,无需人工干预即可自动完成。
Logo of ffmpeg.wasm
ffmpeg.wasm
ffmpeg.wasm是FFmpeg的WebAssembly/JavaScript实现,使浏览器能够直接处理视频和音频。该项目支持在浏览器中进行媒体文件的录制、转换和流传输,为Web开发提供了强大的多媒体处理工具。ffmpeg.wasm简化了Web应用中的音视频处理流程,使开发者能够更便捷地实现复杂的多媒体功能。
Logo of BgRem
BgRem
BgRem提供多种AI驱动的图像和视频编辑工具,包括艺术生成、背景移除、AI自拍生成和室内设计等功能。该平台旨在提高工作效率,简化创作流程,激发用户创意。凭借直观的界面、丰富的功能和优质的性价比,BgRem赢得了全球用户的好评,为内容创作者、自由职业者和企业家提供了实用的创作解决方案。
Logo of Transcript.LOL
Transcript.LOL
Transcript.LOL提供高效的音视频内容转录和智能分析服务。支持将播客、视频和会议内容转换为文字,并自动生成摘要、提取主题、实现上下文问答。平台具备多人对话识别和自动标点功能,便于快速获取关键信息。适用于内容创作者和中小企业,有助于提升学习效率和工作生产力。
Logo of only one AI
only one AI
only one AI收录超过30,000个AI工具,涵盖内容创作、营销、视频制作、编程等领域。提供全面的AI工具目录和比较信息,助力用户提升工作效率和创造力。作为全球最大的AI工具导航平台,汇集2024年度最佳AI解决方案。
Logo of DiverseShot AI
DiverseShot AI
DiverseShot AI是一款专业的视频转3D高斯分布点云模型工具。它通过三步简化流程:多角度拍摄、AI训练处理、导出上传,将普通视频转化为浏览器可访问的逼真3D场景。该工具无需编码技能,为创作者提供了将日常视频转换为交互式3D内容的创新方法,适用于在线展示和虚拟现实等多种应用场景。用户可以轻松将现实世界的物体转化为沉浸式的3D体验,为各种在线展示和虚拟现实应用创造独特的视觉效果。
Logo of PhotoStyleAI
PhotoStyleAI
PhotoStyleAI提供Ruby、PS2和绘画等多种独特滤镜,用于转换照片、图像和视频风格。网站界面简洁,使复杂的图像处理变得容易,适合创意和娱乐用途。
Logo of moviepy
moviepy
MoviePy是一个Python视频编辑库,支持剪辑、拼接、添加字幕和视频合成等功能。该库可处理常见音视频格式,包括GIF,兼容Windows、Mac和Linux系统。MoviePy提供简洁API,方便创建自定义视频效果。它依赖NumPy和Imageio等模块,可自动安装FFMPEG。此外,MoviePy还支持高级图像处理,可与PIL和OpenCV等库集成使用。