Logo

#音频分析

Logo of audioFlux
audioFlux
audioFlux是一个开源工具库,专注于音频和音乐的分析及特征提取。支持多种时间频率变换方法和多种特征组合,适用于分类、分离、音乐信息检索(MIR)和自动语音识别(ASR)等任务。该库跨平台且核心由高性能C语言实现,支持FFT硬件加速,适合大规模数据处理。最新版本引入了多种音高算法及音高移位和时间伸缩算法。
Logo of AudioShake
AudioShake
AudioShake为音频分离和处理提供全面解决方案。平台能将录音拆分为独立音轨,增强音频的互动性和灵活性。适用于混音母带、本地化字幕、互动体验、同步授权和歌词转录等多个领域。其技术受到业界广泛认可,为音频行业注入新活力。
Logo of pyAudioAnalysis
pyAudioAnalysis
pyAudioAnalysis是一个开源的Python音频分析库,提供音频特征提取、分类、分割等功能。它支持分类器训练评估、未知声音分类、事件检测、监督/非监督分割、回归模型训练和数据可视化。通过Python接口或命令行,可实现复杂的音频分析任务。适用于音乐识别、语音处理等领域,为音频分析提供全面解决方案。
Logo of Qwen2-Audio
Qwen2-Audio
Qwen2-Audio是一款先进的音频语言模型,可处理多种音频输入并执行分析或生成文本响应。该模型提供语音交互和音频分析两种功能,在13项基准测试中展现出色性能,包括语音识别、翻译和情感分析等任务。目前已发布Qwen2-Audio-7B和Qwen2-Audio-7B-Instruct两个版本。
Logo of uLipSync
uLipSync
uLipSync是一款Unity口型同步资产,采用Job System和Burst Compiler技术提高性能。支持实时分析和预烘焙处理,可集成Timeline并转换为AnimationClip。系统支持角色配置文件创建、麦克风输入、VRM模型和WebGL。提供校准工具便于调整口型同步效果。
Logo of librosa
librosa
librosa是一个开源的Python音频分析库,用于音乐和声音处理。它提供音频加载、特征提取、频谱分析等功能,支持多种音频格式。librosa适用于音乐信息检索、音频特效制作和声学研究等领域。该库集成了信号处理算法,并提供文档和示例。librosa适合各级音频处理开发者使用。
Logo of Polymath
Polymath
Polymath是一款基于机器学习的音乐库转换工具,可将任意音乐库转化为音乐制作样本库。该工具能自动分离歌曲声部,统一量化节奏和拍子,分析音乐结构和调性,并完成音频到MIDI的转换。Polymath为音乐制作人、DJ和音频开发者提供了可搜索的样本库,简化了音乐创作流程。使用者可以方便地组合不同歌曲元素,创作新作品或制作DJ混音。对于机器学习开发者,Polymath也简化了大型音乐数据集的创建过程。
Logo of AudioKit
AudioKit
AudioKit是一个开源的音频合成、处理和分析平台,支持iOS、macOS(含Catalyst)和tvOS。该框架提供丰富的音频处理工具和API,便于开发者创建音频应用。AudioKit可通过Swift Package Manager集成,并配有详细文档和示例代码。作为开源项目,它拥有活跃的社区支持,为开发者提供持续更新和问题解决。