看一眼就能听见
这个仓库提供了论文《看一眼就能听见:利用噪声样本进行目标语音听取》的代码。《看一眼就能听见》是一个智能听力系统,用户只需看几秒钟就能选择听到目标说话者的声音。这篇论文在 CHI 2024 上获得了最佳论文荣誉提名 🏆。
https://github.com/vb000/LookOnceToHear/assets/16723254/49483e4d-9ebe-4c56-a84e-43c30d1cc3b9
设置
conda create -n ts-hear python=3.9
conda activate ts-hear
pip install -r requirements.txt
训练
训练数据包括清晰语音、背景声音、头部相关传递函数(HRTFs)和双耳房间脉冲响应(BRIRs)。我们使用 Scaper 工具包来合成生成音频混合。每个音频混合在训练或评估过程中实时生成,使用 Scaper 的 generate_from_jams
函数基于 .jams
规范文件生成。
我们在这里提供了自包含数据集,其中包含我们用于训练的源 .jams
规范。要进行训练,只需下载提供的 .zip
文件,将内容解压到 data/
目录,然后运行以下命令:
python -m src.trainer --config <configs/tsh.json> --run_dir <runs/tsh> [--frac <0.05 (% train/val batches)>]
要恢复部分运行:
python -m src.trainer --config <configs/tsh.json> --run_dir <runs/tsh>
评估
评估在与训练样本类似格式的语音混合上进行。嵌入模型和目标语音听取(TSH)模型的检查点可在这里获取。
python -m src.ts_hear_test