#音频处理
ffmpeg-kit - 跨平台FFmpeg封装库 支持多种移动和桌面系统
FFmpegKitFFmpeg多平台视频处理音频处理Github开源项目
FFmpegKit是一个跨平台FFmpeg封装库,支持在Android、iOS、Linux等系统上使用FFmpeg功能。它提供FFmpeg原生库构建脚本、命令执行包装库和预编译二进制包。基于FFmpeg 4.5及以上版本开发,支持多种可选系统和外部库,为开发者提供灵活的音视频处理能力。
AudioKit - iOS、macOS和tvOS跨平台音频合成与处理框架
AudioKit音频合成音频处理音频分析iOS开发Github开源项目
AudioKit是一个开源的音频合成、处理和分析平台,支持iOS、macOS(含Catalyst)和tvOS。该框架提供丰富的音频处理工具和API,便于开发者创建音频应用。AudioKit可通过Swift Package Manager集成,并配有详细文档和示例代码。作为开源项目,它拥有活跃的社区支持,为开发者提供持续更新和问题解决。
bird-recognition-review - 深度学习推动鸟类声音识别研究进展
鸟类识别数据集机器学习音频处理生态学Github开源项目
本项目梳理了鸟类声音识别领域的数据集、论文和开源项目等资源。重点介绍了卷积神经网络等深度学习方法在提高识别准确率方面的进展。同时探讨了野外录音中的背景噪声、多种鸟类同时发声等挑战,为该领域研究提供了参考。
Catch-A-Waveform - 单样本驱动的多样化AI音频生成技术突破
Catch-A-Waveform音频生成深度学习神经网络音频处理Github开源项目
Catch-A-Waveform是一个开源的AI音频生成项目,通过单一短音频样本学习生成多样化音频。该项目支持无条件生成、带宽扩展、音频修复和降噪等功能,可用于音乐创作、语音处理和音频修复等领域。Catch-A-Waveform不仅能创造新的音频内容,还能提升现有音频质量,为音频处理技术开辟新的研究方向。
pipewire - 开源多媒体流处理框架
PipeWire多媒体管道音频处理视频处理服务器APIGithub开源项目
PipeWire是一个开源的多媒体服务器和API,用于处理音视频流。它支持视频捕获、多路复用和音视频处理图生成。PipeWire兼容ALSA、JACK和PulseAudio,可与现有应用程序集成。它提供灵活的配置选项,支持低延迟音频,并包含用于系统监控和调试的工具。PipeWire旨在为Linux系统提供统一的多媒体处理框架。
mp4ff - Go语言实现的MP4文件解析与生成库
MP4解析视频处理音频处理流媒体DASHGithub开源项目
mp4ff是一个Go语言实现的MP4文件解析和生成库。它主要用于处理DASH、MSS和HLS fMP4等流媒体格式的分片MP4文件,支持AVC和HEVC视频、AAC和AC-3音频以及stpp和wvtt字幕。库提供API和命令行工具,可用于分析MP4结构、提取编解码器信息、重新分段和加解密。mp4ff优化了内存管理和I/O处理,能高效处理大型MP4文件。
laravel-ffmpeg - Laravel的FFmpeg集成包 支持高级视频处理功能
LaravelFFmpegPHP视频处理音频处理Github开源项目
laravel-ffmpeg为Laravel 10提供FFmpeg集成,支持Laravel文件系统、配置和日志。内置HLS、加密HLS、连接、多输入/输出、图像序列、复杂过滤器、水印和马赛克等功能。兼容PHP 8.1+和FFmpeg 4.4/5.0,简化FFmpeg使用,赋予Laravel开发者强大视频处理能力。
WebAV - 基于WebCodecs的Web视频处理SDK
WebAVWebCodecs视频编辑音频处理浏览器兼容性Github开源项目
WebAV是基于WebCodecs技术的Web视频处理SDK,支持跨平台运行且无需服务器。该SDK具有高性能、小体积、易扩展等特点,保护用户隐私。WebAV适用于视频编辑、直播、批量音视频处理等场景,为开发者提供丰富的功能和灵活的扩展性。
android-vad - Android语音活动检测库 支持多种实时离线模型
AndroidVAD语音活动检测音频处理机器学习Github开源项目
Android-vad项目提供语音活动检测库,支持实时音频处理和人声识别。集成了WebRTC、Silero和Yamnet三种VAD模型,分别适用于不同场景。该库可离线运行,适合移动设备上的实时语音检测应用。WebRTC模型轻量快速,Silero模型精度高,Yamnet模型则支持多种音频事件识别。
nnAudio - 基于PyTorch的快速GPU音频处理工具箱
nnAudio音频处理PyTorch频谱图GPUGithub开源项目
nnAudio是一款基于PyTorch的音频处理工具箱,利用卷积神经网络实现实时频谱图生成和傅里叶核心训练。它具备跨平台兼容性、可训练性和可微分性,支持STFT、梅尔频谱、MFCC、CQT等多种音频处理功能。相比传统工具,nnAudio在GPU上提供更高效的音频分析和处理方案。
SLAM-LLM - 专注语音语言音频音乐处理的多模态大模型训练工具
SLAM-LLM多模态大语言模型语音处理音频处理音乐处理Github开源项目
SLAM-LLM是一款开源深度学习工具包,为多模态大语言模型(MLLM)训练而设计。它专注于语音、语言、音频和音乐处理,提供详细训练方案和高性能推理检查点。支持自动语音识别、文本转语音等多种任务,具备易扩展性、混合精度训练和多GPU训练等特点,适合研究人员和开发者使用。
BS-RoFormer - 先进音乐源分离技术的开源实现
音乐源分离BS-RoFormer人工智能深度学习音频处理Github开源项目
BS-RoFormer是一个开源的音乐源分离项目,实现了先进的注意力网络技术。该项目采用跨频率和时间的轴向注意力以及旋转位置编码,显著提高了分离效果。支持立体声训练和多声部输出,为音乐处理领域带来新的可能。项目提供了详细的使用说明和应用案例,适合研究者和开发者使用。
AI-Song-Cover-RVC - 全流程AI歌曲翻唱工具集
AI歌曲翻唱RVC语音合成音频处理Google ColabGithub开源项目
AI-Song-Cover-RVC项目集成了AI歌曲翻唱所需的全套工具。涵盖YouTube WAV文件下载、人声分离、音频分割、模型训练及推理等完整流程。项目支持在Google Colab或Kaggle平台使用,并提供多种工具选项,如AICoverGen和无UI训练模式。附带详细教程,适合音乐爱好者和AI研究者使用。
drachtio-freeswitch-modules - 增强实时通信应用的开源FreeSWITCH模块集
Freeswitch模块drachtio音频处理语音识别开源项目Github
drachtio-freeswitch-modules是一个为drachtio应用设计的开源FreeSWITCH模块集。包含音频流转发、Google语音转文本、Dialogflow集成等模块,能够增强实时通信应用的功能。虽然项目不再积极维护,但对于需要高级音频处理和语音交互的FreeSWITCH应用开发者来说,仍是valuable参考资源。项目兼容性强,支持FreeSWITCH 1.8版本。
speech_recognition - Python多引擎语音识别库
SpeechRecognition语音识别Python库API支持音频处理Github开源项目
SpeechRecognition是一个Python语音识别库,支持CMU Sphinx、Google Speech等多个引擎。它提供麦克风输入、音频文件转录等功能,可进行离线和在线识别。该库安装简单,适用于各类语音识别应用开发。
matchering - 智能音频匹配与母带处理工具
Matchering 2.0音频处理音频匹配母带处理Python库Github开源项目
Matchering 2.0是开源音频处理工具,提供容器化Web应用和Python库。基于目标音轨和参考音轨比对,自动调整RMS、频率响应、峰值振幅和立体声宽度,实现专业级母带处理。支持多种音频格式,可用于风格模仿、专辑统一和音频实验,为音乐制作者提供灵活高效的解决方案。
Recorder - 多平台支持的HTML5录音和实时音频处理库
HTML5录音音频处理实时转码浏览器兼容性RecorderGithub开源项目
Recorder是一款跨平台HTML5录音库,支持实时音频处理、格式转换和可视化。兼容大多数现代浏览器及移动设备,适用于语音录制、实时语音识别等场景。支持MP3、WAV等多种音频格式,提供丰富插件和API,便于开发者实现复杂音频处理。除浏览器环境外,Recorder还可用于微信小程序和uni-app等应用中。
SALMONN - 通用听觉能力赋能大语言模型 实现音频输入的多模态理解
SALMONN大语言模型语音识别音频处理人工智能Github开源项目
SALMONN是清华大学和字节跳动共同开发的大语言模型,能处理语音、音频和音乐输入。通过结合Whisper和BEATs编码器,SALMONN实现了多语言语音识别、翻译和音频-语音推理等功能。该模型可理解多种音频输入并执行文本和语音指令,展现了跨模态能力,推动了具听觉能力的人工智能发展。
inaSpeechSegmenter - CNN音频分割工具包实现语音检测与性别识别
语音分割性别识别音频处理机器学习开源工具Github开源项目
inaSpeechSegmenter是一个基于CNN的开源音频分割工具包,主要用于语音活动检测和说话人性别分割。该工具能将音频分为语音、音乐和噪音区域,并对语音部分进行男女性别标注。在法语媒体测试中表现出色,已应用于多项性别代表性研究。兼容Python 3.7到3.12版本,提供命令行和API接口,支持pip安装和Docker部署。
awesome-cl - 优质Common Lisp库资源汇总
Common Lisp开源库编程系统构建音频处理Github开源项目
该资源列表汇总了Common Lisp生态系统中的优质库,覆盖人工智能、音频处理、构建系统等多个领域。所列库均可通过Quicklisp获取,并标注了社区标准库和推荐库。列表为Common Lisp开发者提供了全面的高质量库参考,有助于提高开发效率。
awesome-livecoding - 实时编码语言和工具的精选列表
实时编程音频处理视觉效果开源SuperColliderGithub开源项目
该列表汇集了多种实时编码语言和工具,涵盖音频、视觉和多媒体创作领域。内容包括编程语言、库、工具和社区平台,适合不同水平的用户。列表介绍了主流实时编码环境,并收录了实验性和新兴项目,为创意编码和表演艺术提供参考。
PipeWire-Guide - 多媒体服务器与API完整教程
PipeWire音频处理多媒体Linux开源软件Github开源项目
本指南全面介绍PipeWire多媒体服务器,涵盖核心功能、安装配置、开发资源及音视频工具集成。内容包括实用教程和推荐工具,适合不同水平用户参考学习。重点讲解PipeWire如何提升音视频处理效率,以及与JACK、PulseAudio等系统的兼容性。同时详解其低延迟处理能力和图形化引擎,阐述PipeWire在音频捕获、播放和实时处理方面的优势,以及与容器化应用的兼容性。提供丰富的开发文档、API说明和实用工具,帮助用户充分利用PipeWire的强大功能。
AutoSub - 开源视频自动字幕生成工具
AutoSub字幕生成语音识别开源工具音频处理Github开源项目
AutoSub是一款开源命令行工具,能够为视频自动生成多种格式的字幕文件。它集成了Mozilla DeepSpeech和Coqui STT语音识别技术,结合pyAudioAnalysis音频分析库,实现了高效的音频分割和文字转换。该工具支持多语言处理,可满足不同类型视频的字幕需求。
wespeaker-voxceleb-resnet34-LM - 采用预训练的Wespeaker嵌入模型优化音频说话人识别
模型开源项目Huggingface音频处理Github深度学习声纹识别pyannote.audio
这个开源项目集成了WeSpeaker的wespeaker-voxceleb-resnet34-LM预训练模型,适用于pyannote.audio,提升说话人识别和验证的效率。可执行基础和高级功能,如GPU加速、音频片段嵌入提取和滑动窗口特征识别。兼容pyannote.audio 3.1及更高版本,以提供更加快速和可靠的音频处理方案。
speaker-diarization-3.1 - 提升语音处理的开源说话人分区技术
模型说话人分离Github音频处理语音识别深度学习Huggingface开源项目pyannote
该开源语音分区模型应用了纯PyTorch,替换了存在问题的onnxruntime,以简化部署流程并可能提高推断效率。此工具接受16kHz的单声道音频输入,能够自动混合多声道音频为单声道,并支持音频的自动重采样。其高效性能允许在CPU或GPU上运行,同时支持从内存加载音频以加快处理速度。
speaker-diarization - 高效实时的开源语音说话人分割系统
模型说话人分离Github音频处理语音识别开源项目Huggingface机器学习pyannote
pyannote/speaker-diarization是一个高效的开源说话人分割系统,支持指定说话人数量等高级功能。该系统在多个基准数据集上实现较低的分割错误率,无需人工调整。其实时因子约为2.5%,可快速处理大量音频。项目还提供详细的技术报告和适配指南,方便用户根据需求进行调整。
mms-300m-1130-forced-aligner - 多语言音频文本强制对齐Python工具包
强制对齐CTC模型Huggingface模型语音识别Github开源项目音频处理Hugging Face
这是一个基于Hugging Face预训练模型的Python包,用于实现音频和文本的强制对齐。该工具采用了优化的实现方式,相比TorchAudio的强制对齐API,能显著降低内存使用。它支持超过100种语言,提供简便的安装和使用方法。该包可以生成精确的词级时间戳,适用于语音识别、字幕生成、语音合成等多种应用场景。此外,它还支持音频批处理和自定义设备选择,提高了处理效率。
embedding - 开源说话人嵌入模型 改进x-vector架构提升语音识别效果
模型说话人识别Github开源项目Huggingface音频处理VoxCelebpyannote嵌入模型
这是一个基于pyannote.audio的开源说话人嵌入模型,采用改进的x-vector TDNN架构和SincNet特征。模型在VoxCeleb 1测试集上达到2.8%的等错误率,无需额外的语音活动检测或PLDA。支持GPU加速、音频片段嵌入提取和滑动窗口嵌入等功能,可用于说话人识别、验证和分类等任务。
voice-activity-detection - 基于pyannote.audio的开源语音活动检测模型
模型说话人分类声音分割语音活动检测Github音频处理Huggingface开源项目pyannote
该项目提供基于pyannote.audio 2.1的开源语音活动检测模型,可精确识别音频中的语音片段。支持AMI、DIHARD和VoxConverse等数据集,适用于多种应用场景。用户通过简单的Python代码即可调用预训练模型,实现高效的语音检测。这一工具为语音分析和处理提供了可靠基础,适用于学术研究及商业应用。
riffusion-model-v1 - 基于稳定扩散的实时音乐生成模型
模型开源项目Huggingface机器学习音频处理Riffusion音乐生成Github人工智能
Riffusion是一个基于稳定扩散技术的文本到音频模型,能够生成音频频谱图并转换为实时音乐。该模型通过微调Stable Diffusion v1.5实现,可根据文本提示生成和修改频谱图像。Riffusion主要应用于音乐创作、教育工具和生成模型研究。项目提供开源代码、模型文件和Web应用程序,使用户能够直接体验实时音乐生成。该开源项目包含完整的模型文件、推理代码和种子图像库,为研究人员和开发者提供了丰富的资源。
larger_clap_general - CLAP音频-文本预训练模型 实现零样本音频分类和特征提取
模型CLAP零样本分类开源项目Huggingface音频处理机器学习语音识别Github
larger_clap_general是一个优化的CLAP(对比语言-音频预训练)模型,针对通用音频、音乐和语音进行训练。该模型结合SWINTransformer和RoBERTa分别处理音频和文本信息,适用于零样本音频分类和音频/文本特征提取。它能够在不针对特定任务优化的情况下,预测与给定音频最相关的文本描述,广泛应用于音频分类等多个领域。
speech-separation-ami-1.0 - 基于pyannote.audio的多说话人语音分离与分类系统
模型开源项目说话人分离Github音频处理语音识别pyannote.audioHuggingface语音分离
这是一个基于pyannote.audio的开源项目,实现了同步的说话人分类和语音分离功能。系统接收16kHz采样率的单声道音频,输出说话人分类结果和分离后的语音。该项目由Joonas Kalda基于AMI数据集开发,适用于实际多说话人场景。项目提供简洁的Python接口,支持GPU加速和内存处理,为语音分析提供了实用解决方案。
wav2vec2_tiny_random - 轻量级语音识别模型测试入门
深度学习Huggingface开源项目模型CTCtransformersGithub音频处理Wav2Vec2
使用简洁的代码示例来测试轻量级语音识别模型,展示如何利用Wav2Vec2ForCTC结合torchaudio进行验证。通过示例演示音频数据的加载、处理以及模型输出与损失的计算过程。适用于librispeech_asr简化版数据集,是理解语音识别模型基本原理的理想入门材料。
overlapped-speech-detection - 开源重叠语音检测工具实现多人同时发言识别
语音识别pyannote语音重叠检测声纹分割模型Github音频处理Huggingface开源项目
开源重叠语音检测工具overlapped-speech-detection专注于识别音频中的多人同时发言片段,通过Python API接口快速部署实现。该工具基于神经网络技术,支持多种数据集训练,可应用于会议记录、课堂互动、多人访谈等场景的语音分析。
wav2vec2-large-lv60 - 深度学习实现高性能语音识别 仅需少量标记数据
语音识别语音预训练模型深度学习GithubWav2Vec2音频处理Huggingface开源项目
Wav2Vec2是Facebook开发的语音预训练模型,通过无监督学习从原始音频中提取语音特征。该模型在大规模未标注数据上预训练后,能够以极少量的标注数据实现高性能语音识别。在LibriSpeech测试集上,全量标注数据训练可达1.8/3.3词错率;仅用1小时标注数据即超过先前100小时数据的最佳结果;10分钟标注数据也能实现4.8/8.2词错率。Wav2Vec2为低资源环境下的高质量语音识别提供了新的可能性。
speaker-segmentation-fine-tuned-callhome-eng - 基于Callhome数据集微调的英语语音说话人分割开源模型
Huggingface音频处理开源项目模型说话人分割GithubpyannoteCallhome机器学习
这是一个基于pyannote/segmentation-3.0在英语Callhome数据集上微调的说话人分割模型。模型在评估集上达到0.4602的损失率和0.1828的DER值。它可以集成到pyannote说话人分割流程中,支持GPU加速,适用于高质量说话人分割任务。模型提供了使用示例代码,方便快速上手。
相关文章
Riffusion:基于稳定扩散的实时音乐生成库
2024年08月30日
Riffusion: 基于稳定扩散的实时音乐生成项目
2024年08月30日
nlpaug: 强大的NLP数据增强库
2024年08月30日
MelGAN: 一种高效的神经网络声码器
2024年08月30日
XTTS API Server: 一个简单而强大的文本转语音解决方案
2024年08月30日
Gemini: Google 的多模态AI模型引领未来智能交互
2024年09月02日
Silero VAD: 先进的语音活动检测技术
2024年09月04日
CREPE: 革命性的基于深度学习的音高估计技术
2024年09月04日
Riffusion: 基于稳定扩散的实时音乐生成技术
2024年08月30日