#语音处理

AgentLego - 多功能 LLM Agent 工具库 - 增强大语言模型代理的能力

2024年09月10日

AgentLego 大语言模型视觉感知图像生成语音处理 Github 开源项目

2024年09月10日

自制智能音箱完全指南 - 从零开始打造属于自己的智能语音助手

2024年09月10日

智能扬声器语音识别开源项目语音助手语音处理 Github

2024年09月10日

Athena入门学习资料 - 开源端到端语音处理引擎

2024年09月10日

Athena 语音处理自动语音识别语音合成端到端模型 Github 开源项目

2024年09月10日

VoiceFixer 入门学习资料 - 通用语音修复工具

2024年09月10日

VoiceFixer 语音修复神经声码器语音处理预训练模型 Github 开源项目

2024年09月10日

ESPnet学习资料汇总 - 端到端语音处理工具包

2024年09月10日

ESPnet 语音识别文本转语音语音处理深度学习 Github 开源项目

2024年09月10日

SpeechBrain学习资料汇总 - 开源语音AI工具包

2024年09月10日

SpeechBrain 人工智能语音处理聊天机器人 PyTorch Github 开源项目

2024年09月10日

SLAM-LLM:面向语音、语言、音频和音乐处理的大型语言模型工具包

2024年09月05日

SLAM-LLM 多模态大语言模型语音处理音频处理音乐处理 Github 开源项目

2024年09月05日

Echogarden：强大而易用的语音处理工具集

2024年09月05日

Echogarden 语音处理文本转语音语音转文本语音工具集 Github 开源项目

2024年09月05日

NeuralSVB: 一种创新的神经网络歌声美化技术

2024年09月05日

NeuralSVB AI歌声美化深度学习语音处理音频生成 Github 开源项目

2024年09月05日

公开演讲课程:掌握自信表达的艺术

2024年09月05日

语音处理数字信号处理语音识别语音合成 YSDA Github 开源项目

2024年09月05日

相关项目

voicefixer

Voicefixer，一款基于神经声码器的预训练工具，可处理多种语音退化问题，包括噪音、混响、低分辨率及削波效应。支持44.1kHz的通用神经声码器，适用于各种应用场景，如命令行、桌面客户端及Python脚本。

speechbrain

SpeechBrain是一个基于PyTorch的开源框架，专注于对话AI技术的快速开发，涵盖语音助手、聊天机器人和大型语言模型。该项目包含超过200个训练配方，覆盖40个数据集进行20种语音和文本处理任务。支持从零开始构建模型或微调如Whisper、Wav2Vec2等预训练模型。此外，SpeechBrain通过30多个Google Colab教程促进教育和学习，帮助用户深入了解对话AI系统。

espnet

ESPnet是一个端到端语音处理模块，封装了多个领域的语音处理任务，如语音识别、文本到语音、语音翻译、语音增强和说话人分割等。该平台基于Pytorch开发，采用符合Kaldi风格的数据处理方法，提供针对各类语音处理实验的完整解决方案。ESPnet支持多语言处理，并能够调整自身以适应不同的语言和环境。

athena

一款基于Tensorflow构建的开源端到端语音处理平台，旨在提升语音处理技术的研究与实际应用。支持自动语音识别、语音合成、关键词检测等多项功能，配备多GPU训练和无Kaldi的Python特征提取，实现了多种模型结构如FastSpeech和Conformer，适用于各类研究和应用需求。该平台在最新更新中加入了FastSpeech2和Conformer-CTC模型以优化处理速度和准确性。

agentlego

AgentLego是一个提供多种工具API的开源库，旨在增强基于大语言模型的代理功能。它支持多模态工具，如视觉感知、图像生成与编辑、语音处理等，且易于集成到LangChain、Transformers Agents和Lagent等框架中。同时，AgentLego支持远程访问和工具服务，适用于需要大型机器学习模型或特定环境的应用。

Codec-SUPERB

Codec-SUPERB是一个综合性音频编解码模型评估平台，提供标准化测试环境和统一数据集。平台特色包括直观的编解码接口、多角度评估和在线排行榜。它旨在促进语音处理领域的发展，为研究人员提供便捷的模型集成和测试环境，支持快速迭代和实验。

lhotse

Lhotse是一个开源Python库，为语音和音频数据处理提供灵活易用的解决方案。它具备标准数据准备流程、PyTorch数据集接口、高效I/O处理和存储优化等功能。Lhotse创新性地引入音频切片概念，实现混音、截断和填充等操作，并支持预计算和实时特征提取。作为新一代Kaldi语音处理库的组成部分，Lhotse与k2库协同工作，为语音处理任务提供全面支持。

pyannote-audio

pyannote.audio是基于PyTorch的开源语音说话人分离工具包，提供先进预训练模型和管道。支持针对特定数据集微调，实现多GPU训练，采用Python优先API。在多项基准测试中表现优异，并提供全面文档和教程，包括模型应用、训练和自定义指南。适用于需要高性能说话人分离功能的音频处理项目。

make-a-smart-speaker

本文提供如何从头开始制作智能音箱的详细指南和优质资源。文章覆盖音频处理、关键词检测、语言理解至文本转语音的全面步骤，介绍开源项目如Mycroft、Snips以及Amazon Alexa和Google Assistant等硬件SDK。提供硬件套件链接，帮助开发者和技术爱好者构建并优化智能音箱项目。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com