#音频处理

All-in-One 音乐结构分析工具:一站式解决音乐节奏和功能分析

2024年09月05日
Cover of All-in-One 音乐结构分析工具:一站式解决音乐节奏和功能分析

auraloss:打造音频专用的PyTorch损失函数集合

2024年09月05日
Cover of auraloss:打造音频专用的PyTorch损失函数集合

LookOnceToHear: 革命性的实时语音提取技术

2024年09月05日
Cover of LookOnceToHear: 革命性的实时语音提取技术

MVSEP-MDX23-Colab_v2:强大的音乐分离工具

2024年09月05日
Cover of MVSEP-MDX23-Colab_v2:强大的音乐分离工具

Klio: Spotify的智能音频数据处理利器

2024年09月05日
Cover of Klio: Spotify的智能音频数据处理利器

音频预处理:人工智能时代的关键步骤

2024年09月05日
Cover of 音频预处理:人工智能时代的关键步骤

OpenVINO AI 插件为 Audacity 带来智能音频处理功能

2024年09月05日
Cover of OpenVINO AI 插件为 Audacity 带来智能音频处理功能

aubiojs: JavaScript音频处理库的革新之作

2024年09月05日
Cover of aubiojs: JavaScript音频处理库的革新之作

音频开发工具全面指南:助力音频软件开发者的利器

2024年09月05日
Cover of 音频开发工具全面指南:助力音频软件开发者的利器

torchcrepe:基于PyTorch的高精度音高跟踪工具

2024年09月05日
Cover of torchcrepe:基于PyTorch的高精度音高跟踪工具
相关项目
Project Cover

nlpaug

nlpaug为文本和音频提供数据增强解决方案,适用于多种机器学习和神经网络框架,如scikit-learn、PyTorch和TensorFlow,只需几行代码即可实现数据增强。

Project Cover

melgan

MelGAN是一个在PyTorch上实现的声码器,用于转换NVIDIA tacotron2的输出成原始音频。项目提供了基于LJSpeech-1.1数据集的预训练模型,用户可通过PyTorch Hub访问和试听。适合音频合成领域的研究与开发。

Project Cover

ragdoll-studio

Ragdoll-studio是一个基于Ragdoll技术的Web应用和开发库,可生成各种类型的创意多媒体内容。用户可以通过Story Mode与特定知识领域的角色进行交互,Picture Mode生成风格化图像,未来还将支持视频、音频和3D对象的生成。内容可以导出和发布到社区网站。安装步骤简便,适用于本地服务器和前端的快速部署。

Project Cover

polymath

Polymath 使用机器学习技术将任何音乐库自动转换为音乐制作样本库。该工具能分离歌曲为不同音轨,量化节奏和速度,分析音乐结构和音调,并将音频转为 MIDI。适用于音乐制作人、DJ 和机器学习音频开发者,极大简化工作流程。访问 nendo.ai 获取更多信息和网络版功能。

Project Cover

Gemini

Gemini项目实现了一个可处理文本、音频、图像和视频输入的多模态变换器,具备特殊解码功能来生成图像。其架构类似于Fuyu,但扩展至多种模态,并通过直接将图像嵌入输入变换器来处理。组件Codi也采用条件生成策略,初步实现图像嵌入,后续将集成音频和视频嵌入。

Project Cover

silero-vad

Silero VAD 是一种企业级预训练语音活动检测工具,具备高精确度和快速处理能力。支持多种采样率、体积小巧,适用于 IoT、移动设备和电信应用。通过 PyTorch 和 ONNX 实现高度便携,无需注册或密钥,易于集成和广泛使用。

Project Cover

crepe

CREPE是一款基于深度卷积神经网络的单音音高跟踪器,直接处理时域波形输入,性能优于流行的音高跟踪器如pYIN和SWIPE。用户可通过PyPI安装,并利用预训练模型进行音高预测,结果包含时间戳、预测音高和置信度。CREPE支持时间步长调整、模型容量选择和时间序列平滑,适用于人声和乐器音频,并支持批量处理。

Project Cover

audio

torchaudio是为PyTorch设计的音频处理库,提供GPU加速和自动微分,支持加载和保存多种音频格式(如wav、mp3、ogg、flac等),并提供常见数据集的数据加载器及音频转换功能(如频谱图、Mel频谱图)。该库还提供兼容其他库的接口,适用于音频和语音处理方面的应用。

Project Cover

riffusion-hobby

Riffusion是一个开源库,利用稳定扩散技术实现实时音乐和音频生成,并在图像和音频之间进行转换。该库提供扩散管道、命令行工具和互动应用,支持通过Flask服务器进行模型推理。支持CPU、CUDA和MPS后端,推荐使用CUDA支持的GPU以获得最佳性能。虽然项目已停止维护,但用户仍可参考相关资源和指南进行安装和使用。

投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号