#音频处理

Fineshare - 广告与内容创作的AI音频处理平台

2 个月前

Fineshare 广告 AI创意音频处理

2 个月前

MelGAN入门学习资料 - 基于GAN的声码器模型

2024年09月10日

MelGAN PyTorch 人工智能语音合成预训练模型音频处理 Github 开源项目

2024年09月10日

nlpaug入门指南 - NLP数据增强利器

2024年09月10日

nlpaug 数据增强自然语言处理音频处理机器学习 Github 开源项目

2024年09月10日

riffusion-hobby学习资料汇总 - 基于稳定扩散的实时音乐生成库

2024年09月10日

Riffusion 音乐生成音频处理稳定扩散实时生成 Github 开源项目

2024年09月10日

Common Lisp的宝藏库:探索awesome-cl项目

2024年09月05日

Common Lisp 开源库编程系统构建音频处理 Github 开源项目

2024年09月05日

SALMONN: 为大语言模型赋予通用听觉能力的开创性研究

2024年09月05日

SALMONN 大语言模型语音识别音频处理人工智能 Github 开源项目

2024年09月05日

inaSpeechSegmenter: 强大的音频分割工具包

2024年09月05日

语音分割性别识别音频处理机器学习开源工具 Github 开源项目

2024年09月05日

Recorder: 强大的HTML5 JavaScript录音库

2024年09月05日

HTML5录音音频处理实时转码浏览器兼容性 Recorder Github 开源项目

2024年09月05日

Matchering: 开源音频匹配和母带处理工具

2024年09月05日

Matchering 2.0 音频处理音频匹配母带处理 Python库 Github 开源项目

2024年09月05日

SpeechRecognition: Python语音识别的强大工具

2024年09月05日

SpeechRecognition 语音识别 Python库 API支持音频处理 Github 开源项目

2024年09月05日

相关项目

nlpaug

nlpaug为文本和音频提供数据增强解决方案，适用于多种机器学习和神经网络框架，如scikit-learn、PyTorch和TensorFlow，只需几行代码即可实现数据增强。

melgan

MelGAN是一个在PyTorch上实现的声码器，用于转换NVIDIA tacotron2的输出成原始音频。项目提供了基于LJSpeech-1.1数据集的预训练模型，用户可通过PyTorch Hub访问和试听。适合音频合成领域的研究与开发。

ragdoll-studio

Ragdoll-studio是一个基于Ragdoll技术的Web应用和开发库，可生成各种类型的创意多媒体内容。用户可以通过Story Mode与特定知识领域的角色进行交互，Picture Mode生成风格化图像，未来还将支持视频、音频和3D对象的生成。内容可以导出和发布到社区网站。安装步骤简便，适用于本地服务器和前端的快速部署。

polymath

Polymath 使用机器学习技术将任何音乐库自动转换为音乐制作样本库。该工具能分离歌曲为不同音轨，量化节奏和速度，分析音乐结构和音调，并将音频转为 MIDI。适用于音乐制作人、DJ 和机器学习音频开发者，极大简化工作流程。访问 nendo.ai 获取更多信息和网络版功能。

Gemini

Gemini项目实现了一个可处理文本、音频、图像和视频输入的多模态变换器，具备特殊解码功能来生成图像。其架构类似于Fuyu，但扩展至多种模态，并通过直接将图像嵌入输入变换器来处理。组件Codi也采用条件生成策略，初步实现图像嵌入，后续将集成音频和视频嵌入。

silero-vad

Silero VAD 是一种企业级预训练语音活动检测工具，具备高精确度和快速处理能力。支持多种采样率、体积小巧，适用于 IoT、移动设备和电信应用。通过 PyTorch 和 ONNX 实现高度便携，无需注册或密钥，易于集成和广泛使用。

crepe

CREPE是一款基于深度卷积神经网络的单音音高跟踪器，直接处理时域波形输入，性能优于流行的音高跟踪器如pYIN和SWIPE。用户可通过PyPI安装，并利用预训练模型进行音高预测，结果包含时间戳、预测音高和置信度。CREPE支持时间步长调整、模型容量选择和时间序列平滑，适用于人声和乐器音频，并支持批量处理。

audio

torchaudio是为PyTorch设计的音频处理库，提供GPU加速和自动微分，支持加载和保存多种音频格式（如wav、mp3、ogg、flac等），并提供常见数据集的数据加载器及音频转换功能（如频谱图、Mel频谱图）。该库还提供兼容其他库的接口，适用于音频和语音处理方面的应用。

riffusion-hobby

Riffusion是一个开源库，利用稳定扩散技术实现实时音乐和音频生成，并在图像和音频之间进行转换。该库提供扩散管道、命令行工具和互动应用，支持通过Flask服务器进行模型推理。支持CPU、CUDA和MPS后端，推荐使用CUDA支持的GPU以获得最佳性能。虽然项目已停止维护，但用户仍可参考相关资源和指南进行安装和使用。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com