深度学习音频项目介绍
Deep Learning for Audio(以下简称DLA)项目是一个专注于音频处理和深度学习技术结合的课程。这门课程由来自HSE大学计算机科学系的教授们在2024年秋季开授,旨在为学生提供全面而深入的音频信号处理和相关深度学习技术的学习与实践。
课程大纲
课程内容分为多个模块,每个模块在一个周内进行,包括每周的讲座和实践研讨会。
-
第一周:课程介绍
- 讲座介绍课程概况。
- 研讨会涵盖实验追踪工具如
Hydra
、Git
、VS Code
的使用。 - 自主学习模块介绍
PyTorch
。
-
第二周:数字信号处理入门
- 讲座内容涉及信号、傅里叶变换、声谱图、MelScale及MFCC。
- 研讨会实践数字信号处理,创建声谱图,执行频率滤波。
-
第三周:语音识别I
- 讲授指标、数据集、连接时序分类(CTC)、经典模型、波束搜索、语言模型。
- 研讨会包括音频增强和波束搜索技术。
- 问答环节讨论作业及研发编码技巧。
-
第四周:语音识别II
- 讲座主题为LAS、RNN-T及其语言模型。
- 研讨会讨论混合型RNN-T和CTC模型的训练与推断。
-
第五周:嘉宾讲座. 语音识别III和自监督音频学习
- 探讨音频自监督模型和音频大语言模型。
-
第六周:音源分离I
- 内容包括音源分离及消噪技术、编码解码分离架构、Demucs系列、DCCRN、FullSubNet+、BandSplitRNN。
- 研讨会评估不同分离技术的性能指标。
-
第七周:音源分离II
- 探讨语音分离、盲分离及目标分离技术,如TasNet、DPRNN、VoiceFilter,以及CNN技术如ConvTasNet、SpEx+。
- 研讨会探讨WienerFilter、SincFilter及DEMUCS;并讨论流媒体处理及性能指标。
-
第八周:音频-视觉深度学习
- 讲座探讨音频视觉融合、音源分离、语音识别以及自监督模型,讨论如Wav2Lip和SadTalker等应用。
- 另附研讨会指导创建智能语音助手。
作业与项目
- 学生将通过训练语音识别模型及音视频语音分离模型等作业来应用所学知识。
资源与教学团队
- 课程提供了YouTube上的讲座录像(部分俄语),一些周次提供英文影片。
- 教学团队包括多位知名教授,如Maxim Kaledin、Petr Grinberg、Grigory Fedorov等。
DLA课程旨在通过系统化的教学与实践经验,帮助学生深入理解音频信号处理及其在深度学习中的应用,为音频技术领域的研究和开发奠定坚实基础。