AudioSR:大规模通用音频超分辨率
输入您的音频,AudioSR将使其高保真!
适用于所有类型的音频(如音乐、语音、狗叫声、下雨声等)和所有采样率。
在我们的Discord频道分享您的想法/样本/问题:https://discord.gg/HWeBsJryaf
更新日志
- 2023-09-24:添加Replicate演示(@nateraw);修复Windows上的错误、librosa警告等(@ORI-Muchim)。
- 2023-09-16:修复直流偏移问题。修复持续时间填充错误。更新默认DDIM步骤为50。
Gradio演示
在本地运行Gradio演示:
- 安装依赖:
pip install -r requirements.txt
- 运行应用:
python app.py
- 打开显示的URL以查看演示
命令行使用
安装
# 可选
conda create -n audiosr python=3.9; conda activate audiosr
# 安装AudioLDM
pip3 install audiosr==0.0.7
# 或
# pip3 install git+https://github.com/haoheliu/versatile_audio_super_resolution.git
使用方法
处理文件列表。结果默认保存在./output。
audiosr -il batch.lst
处理单个音频文件。
audiosr -i example/music.wav
完整使用说明
> audiosr -h
> usage: audiosr [-h] -i INPUT_AUDIO_FILE [-il INPUT_FILE_LIST] [-s SAVE_PATH] [--model_name {basic,speech}] [-d DEVICE] [--ddim_steps DDIM_STEPS] [-gs GUIDANCE_SCALE] [--seed SEED]
可选参数:
-h, --help 显示此帮助信息并退出
-i INPUT_AUDIO_FILE, --input_audio_file INPUT_AUDIO_FILE
用于音频超分辨率的输入音频文件
-il INPUT_FILE_LIST, --input_file_list INPUT_FILE_LIST
包含所有需要进行音频超分辨率处理的音频文件的文件
-s SAVE_PATH, --save_path SAVE_PATH
保存模型输出的路径
--model_name {basic,speech}
您将使用的检查点
-d DEVICE, --device DEVICE
计算设备。如果未指定,脚本将根据您的环境自动选择设备。
--ddim_steps DDIM_STEPS
DDIM的采样步骤
-gs GUIDANCE_SCALE, --guidance_scale GUIDANCE_SCALE
引导尺度(大 => 更好的质量和与文本的相关性;小 => 更好的多样性)
--seed SEED 更改此值(任何整数)将导致不同的生成结果。
--suffix SUFFIX 输出文件的后缀
待办事项
- 添加Gradio演示。
- 优化推理速度。
引用我们的工作
如果您觉得本仓库有用,请考虑引用:
@article{liu2023audiosr,
title={{AudioSR}: Versatile Audio Super-resolution at Scale},
author={Liu, Haohe and Chen, Ke and Tian, Qiao and Wang, Wenwu and Plumbley, Mark D},
journal={arXiv preprint arXiv:2309.07314},
year={2023}
}