#音频处理
nlpaug - NLP数据增强的Python工具库
nlpaug数据增强自然语言处理音频处理机器学习Github开源项目
nlpaug为文本和音频提供数据增强解决方案,适用于多种机器学习和神经网络框架,如scikit-learn、PyTorch和TensorFlow,只需几行代码即可实现数据增强。
melgan - PyTorch实现的语音合成技术
MelGANPyTorch人工智能语音合成预训练模型音频处理Github开源项目
MelGAN是一个在PyTorch上实现的声码器,用于转换NVIDIA tacotron2的输出成原始音频。项目提供了基于LJSpeech-1.1数据集的预训练模型,用户可通过PyTorch Hub访问和试听。适合音频合成领域的研究与开发。
ragdoll-studio - 利用Ragdoll技术扩展知识并生成创意多媒体内容的实验性Web应用和开发库
Ragdoll多媒体创作图片生成视频剪辑音频处理Github开源项目
Ragdoll-studio是一个基于Ragdoll技术的Web应用和开发库,可生成各种类型的创意多媒体内容。用户可以通过Story Mode与特定知识领域的角色进行交互,Picture Mode生成风格化图像,未来还将支持视频、音频和3D对象的生成。内容可以导出和发布到社区网站。安装步骤简便,适用于本地服务器和前端的快速部署。
polymath - 使用机器学习技术将任何音乐库自动转换为音乐制作样本库的工具
Polymath机器学习音乐制作样本库音频处理Github开源项目
Polymath 使用机器学习技术将任何音乐库自动转换为音乐制作样本库。该工具能分离歌曲为不同音轨,量化节奏和速度,分析音乐结构和音调,并将音频转为 MIDI。适用于音乐制作人、DJ 和机器学习音频开发者,极大简化工作流程。访问 nendo.ai 获取更多信息和网络版功能。
Gemini - Gemini多模态变换器,支持图像和音频解析
Gemini多模态Transformer图像嵌入音频处理Github开源项目
Gemini项目实现了一个可处理文本、音频、图像和视频输入的多模态变换器,具备特殊解码功能来生成图像。其架构类似于Fuyu,但扩展至多种模态,并通过直接将图像嵌入输入变换器来处理。组件Codi也采用条件生成策略,初步实现图像嵌入,后续将集成音频和视频嵌入。
silero-vad - 企业级预训练语音活动检测工具,适用于多种平台
Silero VAD音频处理语音活动检测声学模型PyTorchGithub开源项目
Silero VAD 是一种企业级预训练语音活动检测工具,具备高精确度和快速处理能力。支持多种采样率、体积小巧,适用于 IoT、移动设备和电信应用。通过 PyTorch 和 ONNX 实现高度便携,无需注册或密钥,易于集成和广泛使用。
crepe - 基于深度卷积神经网络的单音音高跟踪器
CREPE深度卷积神经网络音高跟踪Python音频处理Github开源项目
CREPE是一款基于深度卷积神经网络的单音音高跟踪器,直接处理时域波形输入,性能优于流行的音高跟踪器如pYIN和SWIPE。用户可通过PyPI安装,并利用预训练模型进行音高预测,结果包含时间戳、预测音高和置信度。CREPE支持时间步长调整、模型容量选择和时间序列平滑,适用于人声和乐器音频,并支持批量处理。
audio - 适用于PyTorch音频处理的库,支持多种文件格式与音频数据集
torchaudioPyTorch音频处理机器学习API参考Github开源项目
torchaudio是为PyTorch设计的音频处理库,提供GPU加速和自动微分,支持加载和保存多种音频格式(如wav、mp3、ogg、flac等),并提供常见数据集的数据加载器及音频转换功能(如频谱图、Mel频谱图)。该库还提供兼容其他库的接口,适用于音频和语音处理方面的应用。
whisper-diarization - 基于OpenAI Whisper的音频转录和说话人分离工具
Speaker DiarizationOpenAI Whisper语音识别说话人分类音频处理Github开源项目
whisper-diarization项目整合了OpenAI Whisper的语音识别技术和先进的说话人分离方法。该工具首先进行人声提取,然后利用Whisper生成转录文本,并通过WhisperX优化时间戳。结合MarbleNet和TitaNet等技术,它能够准确识别多个说话人,最终输出包含说话人标识的精确转录结果。这一开源解决方案特别适合需要处理多人对话音频的场景,为音频转录和分析提供了强大支持。
pedalboard - 功能强大的Python音频处理和效果器库
Pedalboard音频处理Python库音效插件VST3Github开源项目
Pedalboard是一个功能丰富的Python音频处理库,支持多种音频格式的读写和效果器应用。内置常见音频效果如合唱、混响等,同时支持加载VST3和Audio Unit插件。该库具有优秀的线程安全性、内存管理和处理速度,可与TensorFlow等深度学习框架集成。Pedalboard在Spotify的数据增强和AI功能开发中得到应用,是音频处理领域的高效工具。
audio-development-tools - 综合音频开发工具集 从机器学习到声音合成
音频开发工具机器学习音频处理音乐生成深度学习Github开源项目
Audio Development Tools提供了涵盖机器学习、音频生成、信号处理、声音合成等多个领域的综合性音频开发工具集。该项目汇集了丰富的资源和工具,可用于游戏音频、数字音频工作站、空间音频、音乐信息检索、语音识别等多种音频相关项目的开发和研究。
aubiojs - 基于aubio的JavaScript实时音频处理库
aubiojs音频处理实时处理音高检测节奏检测Github开源项目
aubiojs是一个基于aubio的JavaScript实时音频处理库,主要提供实时音高检测和BPM计算功能。该库支持Web和Node.js环境,具有易用性和高性能特点。利用aubiojs可进行音频分析和处理,适用于音乐应用和声音识别等项目。通过emscripten编译,aubiojs实现了高效的跨平台兼容性。
torchcrepe - PyTorch实现的CREPE音高追踪算法
音高跟踪PyTorchCREPE音频处理深度学习Github开源项目
torchcrepe是CREPE音高追踪算法的PyTorch实现,提供音高预测、周期性分析和音频嵌入功能。该项目支持多种解码方法、滤波和阈值处理,可用于语音和音乐分析。torchcrepe还包含文件处理和命令行接口,便于进行音高相关的音频处理。
Mangio-RVC-Fork - 开源语音转换框架 支持多种F0算法和快速训练
RVC语音转换AI深度学习音频处理Github开源项目
Mangio-RVC-Fork是一个基于VITS的开源语音转换框架,具有top1检索功能。它提供CLI和Web界面,支持多种F0估计方法,包括混合F0算法。该工具可快速训练,使用少量数据也能获得良好效果。支持模型融合改变音色,以及UVR5模型分离人声和伴奏。项目持续开发中,计划添加更多功能优化用户体验。
SpeechMOS - 简化语音质量评估的开源工具
SpeechMOS语音质量评估MOS预测PyTorch音频处理Github开源项目
SpeechMOS是一款开源的语音质量评估工具,通过简单的代码即可预测主观语音得分。该项目支持多种MOS预测系统,包括UTMOS强模型,可用于评估语音自然度。SpeechMOS使用torch.hub加载模型,无需额外导入库,支持批量处理,适用于语音合成评估等多种场景。这个工具为研究人员和开发者提供了便捷的语音质量评估方法。
speech-dataset-generator - 多语言语音数据集生成与处理工具
Speech Dataset Generator音频处理数据集生成语音识别多语言支持Github开源项目
speech-dataset-generator是一款开源的多语言语音数据集处理工具。它支持从多种来源获取音频,包括YouTube、LibriVox和TED Talks等。该工具提供音频转录、质量增强、静音移除、性别识别、多说话者检测等功能,还能计算语速指标。通过集成多种音频增强器,speech-dataset-generator为文本转语音和语音转文本模型的训练提供了全面的数据准备解决方案。
sound_dataset_tools2 - 多功能语音数据集制作工具
sound_dataset_tools2语音数据集音频处理GUI界面VITSGithub开源项目
sound_dataset_tools2是一款语音数据集制作工具。它具有GUI界面,支持音频+字幕和纯音频自动切割两种数据导入方式。该工具优化音频切割效果,减少断音问题,可导出符合VITS等项目要求的数据集格式。它还包含语音评测功能,有助于从大量数据中筛选出高质量数据集。此工具适用于需要创建语音数据集的研究人员和爱好者。
resemble-enhance - 语音增强工具提升音质消除噪音
Resemble Enhance语音增强降噪AI工具音频处理Github开源项目
Resemble Enhance是一款开源的AI语音增强工具,通过去噪和增强提高语音质量。它包含去噪器和增强器两个模块,使用44.1kHz高质量语音数据训练。该工具支持命令行操作和Web演示,可轻松安装使用。此外,还提供了训练自定义模型的功能,适用于有特定需求的用户。
BigVGAN - 大规模训练的通用神经网络声码器
BigVGAN神经声码器语音合成深度学习音频处理Github开源项目
BigVGAN是一个通过大规模训练实现的通用神经网络声码器。它可高质量合成多语言语音、环境声音和乐器声音等多种音频。项目提供多个预训练模型,支持44kHz采样率和512倍上采样比率。BigVGAN集成自定义CUDA内核,在单个A100 GPU上推理速度提升1.5-3倍。
FunAudioLLM-APP - 开源语音交互与实时翻译应用
FunAudioLLM语音聊天语音翻译人工智能音频处理Github开源项目
FunAudioLLM-APP是一个开源项目,包含Voice Chat和Voice Translation两个应用。Voice Chat提供AI驱动的对话系统,实现自然的语音交互。Voice Translation提供实时语音翻译功能,帮助不同语言使用者进行沟通。项目整合了CosyVoice和SenseVoice技术,旨在提升语音交互和翻译体验。
SECap - 语音情感转文字描述的开源AI系统
SECap语音情感描述大语言模型音频处理情感分析Github开源项目
SECap是一个开源的语音情感描述生成系统,结合大语言模型技术将语音情感转化为文字描述。项目包含模型代码、训练测试脚本和600个音频样本的测试集。系统能捕捉语音情感特征并生成相应描述,为语音情感分析研究提供新的工具和思路。
LLM-Codec - 跨模态音频处理新方案:LLM驱动音频编解码模型
UniAudio 1.5LLM-Codec音频处理跨模态学习大语言模型Github开源项目
LLM-Codec是一种创新音频编解码模型,将音频转换为文本空间,实现跨模态学习。基于LLM-Codec的UniAudio 1.5能通过少量示例执行多种音频任务,包括语音情感分类、音频分类和语音增强。该开源项目为少样本音频任务学习和多模态LLM研究开辟了新途径。
lhotse - Python语音数据处理库 支持灵活高效操作
Lhotse语音处理数据准备PyTorch音频处理Github开源项目
Lhotse是一个开源Python库,为语音和音频数据处理提供灵活易用的解决方案。它具备标准数据准备流程、PyTorch数据集接口、高效I/O处理和存储优化等功能。Lhotse创新性地引入音频切片概念,实现混音、截断和填充等操作,并支持预计算和实时特征提取。作为新一代Kaldi语音处理库的组成部分,Lhotse与k2库协同工作,为语音处理任务提供全面支持。
dasp-pytorch - 基于PyTorch的可微分音频信号处理器库
PyTorch音频处理深度学习信号处理神经网络Github开源项目
dasp-pytorch是一个基于PyTorch的可微分音频信号处理库。它实现了混响、失真、动态范围处理、均衡和立体声处理等功能,可用于虚拟模拟建模、参数估计、自动DSP和风格迁移。该库支持CPU和GPU批处理,有助于加速训练和优化性能。作为开源项目,dasp-pytorch在Apache 2.0许可下可免费用于学术和商业目的。
rubberband - 开源音频时间拉伸和音高调整库
Rubber Band音频处理时间拉伸音高调整开源软件Github开源项目
Rubber Band是一个开源音频处理库和实用程序,能够独立调整音频的速度和音高。它支持C++和C语言接口,可进行离线和实时处理。库内置R2(快速)和R3(精细)两种处理引擎,适应不同音频素材。此外,Rubber Band还包括命令行工具、LADSPA/LV2插件和Vamp分析插件,为多样化的音频处理提供解决方案。该项目采用GNU通用公共许可证(GPL)发布,同时也提供商业许可选项。
audioseal - 创新语音水印技术 提升音频安全性能
AudioSeal语音水印AI模型开源项目音频处理Github
AudioSeal是一种创新的语音水印技术,在音频中嵌入难以察觉的水印,并能快速准确地检测。该技术具有出色的抗篡改能力,可在编辑后的长音频中识别水印片段。AudioSeal实现了高精度的样本级检测,同时保持音质,适用于大规模和实时应用场景。其检测速度比现有方法快近百倍,为音频安全和版权保护提供了强有力的工具。
versatile_audio_super_resolution - 开源音频超分辨率工具 适用多种类型和采样率
AudioSR音频超分辨率音频处理深度学习开源项目Github
AudioSR是一个开源的音频超分辨率项目,旨在提高各类音频的质量。它可处理音乐、语音和环境声等多种音频类型,支持所有采样率。该工具提供Gradio演示界面和命令行操作,方便用户使用和批量处理音频。项目在GitHub上持续更新,为音频处理技术提供了新的解决方案。
CLAP - 音频与文本的对比学习预训练模型
CLAP音频处理机器学习预训练模型多模态学习Github开源项目
CLAP是一个音频-文本对比学习预训练模型,可提取音频和文本的潜在表示。它基于CLIP架构设计,通过大规模预训练学习音频与文本的对应关系。该模型适用于音频分类、检索等多种下游任务。项目提供开源预训练模型、代码和PyPI库,支持从音频文件或数据中直接提取特征。
Wav2Lip - 先进的AI视频口型同步技术
Wav2Lip唇形同步视频处理深度学习音频处理Github开源项目
Wav2Lip是一个开源项目,采用先进的人工智能技术实现高精度的视频口型同步。该技术适用于各种身份、声音和语言,包括CGI人脸和合成语音。项目提供完整的训练和推理代码以及预训练模型,方便用户将任意音频与视频进行口型同步。Wav2Lip在多个基准数据集上展现出领先性能,为视频制作和内容创作领域提供了有力支持。
GigaSpeech - 多领域英语语音识别数据集提供10,000小时转录音频
GigaSpeech语音识别数据集深度学习音频处理Github开源项目
GigaSpeech是一个开源的多领域英语语音识别数据集,包含33,000多小时音频数据,其中10,000小时有高质量人工转录。数据来源包括有声书、播客和YouTube等,并提供多个规模的训练和评估子集。项目提供多种语音识别工具包的数据准备脚本,由志愿者维护并欢迎社区贡献,旨在促进语音技术的研究和应用。
openvino-plugins-ai-audacity - OpenVINO驱动的Audacity AI音频处理插件
OpenVINOAudacityAI插件音频处理开源软件Github开源项目
这个开源项目为Audacity开发了一系列基于AI的音频处理插件。包含音乐分离、降噪、音乐生成与延续以及语音转写等功能。插件使用OpenVINO技术,支持在本地CPU、GPU或NPU上运行,无需网络连接。这些功能可显著提升音频编辑效率和质量。项目采用GPL v3开源协议,适用于Windows和Linux系统。目前提供音乐分离、降噪、AI音乐生成和Whisper语音转写四大功能。开发者欢迎用户反馈和贡献代码,持续改进插件性能。
audio-preprocess - 开源音频处理工具集
音频预处理Fish Audio Preprocessor音频处理Python工具开源项目Github
Fish Audio Preprocessor是一个开源音频处理工具集,提供视频/音频转wav、人声分离、自动切片和音量匹配等功能。它支持音频数据统计、重采样和转录,未来计划集成WhisperX技术。该项目在Ubuntu系统上测试通过,可通过pip安装,并提供命令行界面。适用于需要批量处理音频的开发者和研究人员。
klio - 基于Apache Beam的音频处理数据管道生态系统
Klio音频处理数据管道Apache BeamPythonGithub开源项目
Klio是基于Apache Beam构建的数据管道生态系统,专门用于处理音频和二进制文件。该系统支持批处理和流式处理,主要应用于大规模音频智能系统。Klio源自Spotify,用于开发和部署新一代音频算法。它为工程师和研究人员提供了一个简化音频处理任务的平台。
mediapipe-rs - MediaPipe任务的Rust库 为WasmEdge WASI-NN提供支持
MediaPipe-rsWasmEdge计算机视觉机器学习音频处理Github开源项目
mediapipe-rs是一个为WasmEdge WASI-NN设计的Rust库,实现MediaPipe任务。该库提供简单易用的API,支持多种视觉、音频和文本处理任务,包括对象检测、图像分类和手势识别等。它具有低开销和灵活性,支持TfLite模型,可在CPU、GPU和TPU上运行。mediapipe-rs为开发者提供了在WebAssembly环境中高效执行机器学习任务的解决方案。
ffsubsync - 自动对齐字幕和视频的开源解决方案
FFsubsync字幕同步语音活动检测音频处理开源项目Github
FFsubsync是一个开源的自动字幕同步工具,适用于各种语言的字幕。它通过分析视频音频和字幕文件,利用快速傅里叶变换算法找出最佳匹配点,从而解决字幕与视频不同步的问题。该工具支持多种文件格式,处理速度快,通常只需20-30秒即可完成同步。FFsubsync特别适用于处理从不同来源获取的视频和字幕文件,如下载的电影、电视剧或在线视频平台的内容。它可以有效解决由于帧率差异、剪辑不一致或时间码错误导致的字幕同步问题,为用户提供更好的观看体验。FFsubsync为提升视频观看体验提供了一个简单有效的解决方案,特别适合需要处理大量视频字幕的用户。
riffusion-hobby - 用于实时音乐和音频生成的开源稳定扩散库
Riffusion音乐生成音频处理稳定扩散实时生成Github开源项目
Riffusion是一个开源库,利用稳定扩散技术实现实时音乐和音频生成,并在图像和音频之间进行转换。该库提供扩散管道、命令行工具和互动应用,支持通过Flask服务器进行模型推理。支持CPU、CUDA和MPS后端,推荐使用CUDA支持的GPU以获得最佳性能。虽然项目已停止维护,但用户仍可参考相关资源和指南进行安装和使用。
相关文章
Riffusion:基于稳定扩散的实时音乐生成库
2024年08月30日
Riffusion: 基于稳定扩散的实时音乐生成项目
2024年08月30日
nlpaug: 强大的NLP数据增强库
2024年08月30日
MelGAN: 一种高效的神经网络声码器
2024年08月30日
XTTS API Server: 一个简单而强大的文本转语音解决方案
2024年08月30日
Gemini: Google 的多模态AI模型引领未来智能交互
2024年09月02日
Silero VAD: 先进的语音活动检测技术
2024年09月04日
CREPE: 革命性的基于深度学习的音高估计技术
2024年09月04日
Riffusion: 基于稳定扩散的实时音乐生成技术
2024年08月30日