#音频处理

GigaSpeech: 一个革命性的大规模多领域语音识别数据集

2024年09月04日

GigaSpeech 语音识别数据集深度学习音频处理 Github 开源项目

2024年09月04日

CLAP: 开启音频理解新篇章的对比语言-音频预训练模型

2024年09月04日

CLAP 音频处理机器学习预训练模型多模态学习 Github 开源项目

2024年09月04日

AudioSR: 突破性的多功能音频超分辨率技术

2024年09月04日

AudioSR 音频超分辨率音频处理深度学习开源项目 Github

2024年09月04日

Wav2Lip: 准确实现视频口型同步的智能工具

2024年09月04日

Wav2Lip 唇形同步视频处理深度学习音频处理 Github 开源项目

2024年09月04日

LLM-Codec: 革命性的大语言模型驱动音频编解码器

2024年09月04日

UniAudio 1.5 LLM-Codec 音频处理跨模态学习大语言模型 Github 开源项目

2024年09月04日

Lhotse: 强大的语音数据处理工具库

2024年09月04日

Lhotse 语音处理数据准备 PyTorch 音频处理 Github 开源项目

2024年09月04日

dasp-pytorch: 可微分音频信号处理器在PyTorch中的实现

2024年09月04日

PyTorch 音频处理深度学习信号处理神经网络 Github 开源项目

2024年09月04日

FunAudioLLM-APP: 突破语音交互的新境界

2024年09月04日

FunAudioLLM 语音聊天语音翻译人工智能音频处理 Github 开源项目

2024年09月04日

Speech Dataset Generator: 强大的语音数据集生成工具

2024年09月04日

Speech Dataset Generator 音频处理数据集生成语音识别多语言支持 Github 开源项目

2024年09月04日

SECap: 利用大型语言模型实现语音情感描述的突破性研究

2024年09月04日

SECap 语音情感描述大语言模型音频处理情感分析 Github 开源项目

2024年09月04日

相关项目

nlpaug

nlpaug为文本和音频提供数据增强解决方案，适用于多种机器学习和神经网络框架，如scikit-learn、PyTorch和TensorFlow，只需几行代码即可实现数据增强。

melgan

MelGAN是一个在PyTorch上实现的声码器，用于转换NVIDIA tacotron2的输出成原始音频。项目提供了基于LJSpeech-1.1数据集的预训练模型，用户可通过PyTorch Hub访问和试听。适合音频合成领域的研究与开发。

ragdoll-studio

Ragdoll-studio是一个基于Ragdoll技术的Web应用和开发库，可生成各种类型的创意多媒体内容。用户可以通过Story Mode与特定知识领域的角色进行交互，Picture Mode生成风格化图像，未来还将支持视频、音频和3D对象的生成。内容可以导出和发布到社区网站。安装步骤简便，适用于本地服务器和前端的快速部署。

polymath

Polymath 使用机器学习技术将任何音乐库自动转换为音乐制作样本库。该工具能分离歌曲为不同音轨，量化节奏和速度，分析音乐结构和音调，并将音频转为 MIDI。适用于音乐制作人、DJ 和机器学习音频开发者，极大简化工作流程。访问 nendo.ai 获取更多信息和网络版功能。

Gemini

Gemini项目实现了一个可处理文本、音频、图像和视频输入的多模态变换器，具备特殊解码功能来生成图像。其架构类似于Fuyu，但扩展至多种模态，并通过直接将图像嵌入输入变换器来处理。组件Codi也采用条件生成策略，初步实现图像嵌入，后续将集成音频和视频嵌入。

silero-vad

Silero VAD 是一种企业级预训练语音活动检测工具，具备高精确度和快速处理能力。支持多种采样率、体积小巧，适用于 IoT、移动设备和电信应用。通过 PyTorch 和 ONNX 实现高度便携，无需注册或密钥，易于集成和广泛使用。

crepe

CREPE是一款基于深度卷积神经网络的单音音高跟踪器，直接处理时域波形输入，性能优于流行的音高跟踪器如pYIN和SWIPE。用户可通过PyPI安装，并利用预训练模型进行音高预测，结果包含时间戳、预测音高和置信度。CREPE支持时间步长调整、模型容量选择和时间序列平滑，适用于人声和乐器音频，并支持批量处理。

audio

torchaudio是为PyTorch设计的音频处理库，提供GPU加速和自动微分，支持加载和保存多种音频格式（如wav、mp3、ogg、flac等），并提供常见数据集的数据加载器及音频转换功能（如频谱图、Mel频谱图）。该库还提供兼容其他库的接口，适用于音频和语音处理方面的应用。

riffusion-hobby

Riffusion是一个开源库，利用稳定扩散技术实现实时音乐和音频生成，并在图像和音频之间进行转换。该库提供扩散管道、命令行工具和互动应用，支持通过Flask服务器进行模型推理。支持CPU、CUDA和MPS后端，推荐使用CUDA支持的GPU以获得最佳性能。虽然项目已停止维护，但用户仍可参考相关资源和指南进行安装和使用。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com