#音频处理

Fineshare - 广告与内容创作的AI音频处理平台

2 个月前
Cover of Fineshare - 广告与内容创作的AI音频处理平台

MelGAN入门学习资料 - 基于GAN的声码器模型

2024年09月10日
Cover of MelGAN入门学习资料 - 基于GAN的声码器模型

nlpaug入门指南 - NLP数据增强利器

2024年09月10日
Cover of nlpaug入门指南 - NLP数据增强利器

riffusion-hobby学习资料汇总 - 基于稳定扩散的实时音乐生成库

2024年09月10日
Cover of riffusion-hobby学习资料汇总 - 基于稳定扩散的实时音乐生成库

Common Lisp的宝藏库:探索awesome-cl项目

2024年09月05日
Cover of Common Lisp的宝藏库:探索awesome-cl项目

SALMONN: 为大语言模型赋予通用听觉能力的开创性研究

2024年09月05日
Cover of SALMONN: 为大语言模型赋予通用听觉能力的开创性研究

inaSpeechSegmenter: 强大的音频分割工具包

2024年09月05日
Cover of inaSpeechSegmenter: 强大的音频分割工具包

Recorder: 强大的HTML5 JavaScript录音库

2024年09月05日
Cover of Recorder: 强大的HTML5 JavaScript录音库

Matchering: 开源音频匹配和母带处理工具

2024年09月05日
Cover of Matchering: 开源音频匹配和母带处理工具

SpeechRecognition: Python语音识别的强大工具

2024年09月05日
Cover of SpeechRecognition: Python语音识别的强大工具
相关项目
Project Cover

nlpaug

nlpaug为文本和音频提供数据增强解决方案,适用于多种机器学习和神经网络框架,如scikit-learn、PyTorch和TensorFlow,只需几行代码即可实现数据增强。

Project Cover

melgan

MelGAN是一个在PyTorch上实现的声码器,用于转换NVIDIA tacotron2的输出成原始音频。项目提供了基于LJSpeech-1.1数据集的预训练模型,用户可通过PyTorch Hub访问和试听。适合音频合成领域的研究与开发。

Project Cover

ragdoll-studio

Ragdoll-studio是一个基于Ragdoll技术的Web应用和开发库,可生成各种类型的创意多媒体内容。用户可以通过Story Mode与特定知识领域的角色进行交互,Picture Mode生成风格化图像,未来还将支持视频、音频和3D对象的生成。内容可以导出和发布到社区网站。安装步骤简便,适用于本地服务器和前端的快速部署。

Project Cover

polymath

Polymath 使用机器学习技术将任何音乐库自动转换为音乐制作样本库。该工具能分离歌曲为不同音轨,量化节奏和速度,分析音乐结构和音调,并将音频转为 MIDI。适用于音乐制作人、DJ 和机器学习音频开发者,极大简化工作流程。访问 nendo.ai 获取更多信息和网络版功能。

Project Cover

Gemini

Gemini项目实现了一个可处理文本、音频、图像和视频输入的多模态变换器,具备特殊解码功能来生成图像。其架构类似于Fuyu,但扩展至多种模态,并通过直接将图像嵌入输入变换器来处理。组件Codi也采用条件生成策略,初步实现图像嵌入,后续将集成音频和视频嵌入。

Project Cover

silero-vad

Silero VAD 是一种企业级预训练语音活动检测工具,具备高精确度和快速处理能力。支持多种采样率、体积小巧,适用于 IoT、移动设备和电信应用。通过 PyTorch 和 ONNX 实现高度便携,无需注册或密钥,易于集成和广泛使用。

Project Cover

crepe

CREPE是一款基于深度卷积神经网络的单音音高跟踪器,直接处理时域波形输入,性能优于流行的音高跟踪器如pYIN和SWIPE。用户可通过PyPI安装,并利用预训练模型进行音高预测,结果包含时间戳、预测音高和置信度。CREPE支持时间步长调整、模型容量选择和时间序列平滑,适用于人声和乐器音频,并支持批量处理。

Project Cover

audio

torchaudio是为PyTorch设计的音频处理库,提供GPU加速和自动微分,支持加载和保存多种音频格式(如wav、mp3、ogg、flac等),并提供常见数据集的数据加载器及音频转换功能(如频谱图、Mel频谱图)。该库还提供兼容其他库的接口,适用于音频和语音处理方面的应用。

Project Cover

riffusion-hobby

Riffusion是一个开源库,利用稳定扩散技术实现实时音乐和音频生成,并在图像和音频之间进行转换。该库提供扩散管道、命令行工具和互动应用,支持通过Flask服务器进行模型推理。支持CPU、CUDA和MPS后端,推荐使用CUDA支持的GPU以获得最佳性能。虽然项目已停止维护,但用户仍可参考相关资源和指南进行安装和使用。

投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号