Project Icon

WhisperHallu

实验性音频预处理工具提升Whisper转录准确度

WhisperHallu是一个实验性音频预处理项目,通过降噪、静音去除和语音标记等技术优化Whisper转录,减少幻听文本。该工具提供多种处理选项,支持与WhisperTimeSync和karaok-AI等项目集成。项目包含Google Colab笔记本和详细的安装使用说明,为追求高质量音频转录的开发者和研究人员提供了实用解决方案。

WhisperHallu

实验性代码:音频文件预处理,优化Whisper转录,消除幻听文本

参见此讨论:https://github.com/openai/whisper/discussions/679

主要算法

  • 使用Facebook DemucsDeezer Spleeter进行语音提取去除噪音。
  • 使用ffmpeg去除静音并标准化音量。
  • 使用Silero VAD去除噪音部分。
  • 添加语音标记。
  • 应用语音压缩(需要ffmpeg 4.4版本,而Google Colab为4.2版本,需要升级,见下文)。
  • 尝试转录。如果输出中存在标记,则转录成功。
  • 如果没有,尝试反转标记。如果输出中存在标记,则转录成功。
  • 如果仍然没有,尝试不使用标记。

处理选项和参数

  • 使用Whisper V1、V2或V3(默认V2,因为V3似乎不适合音乐)。
  • beam_size(默认为2)、patience、temperature。
  • 仅处理输入文件的一部分(需要对时间戳值进行后处理)。
  • 测试了各种时间拉伸方法(见代码内注释。需要对时间戳值进行后处理。这是一个有趣的建议,但我这边没有获得实际收益)。
  • 人声重混(有无语音标准化)。
  • 多次最终转录(获得多个结果,考虑到Whisper每次运行结果不稳定,无需多次进行预处理)

补充

可用于为WhisperTimeSync生成"精确转录":
https://github.com/EtienneAb3d/WhisperTimeSync

可使用NeuroSpell Dictaphone进行测试:
https://neurospell.com/

WhisperHallu和WhisperTimeSync用于在karaok-AI中提取人声和歌词:
https://github.com/EtienneAb3d/karaok-AI

ChatMate是一个完整的多功能ChatGPT自动化工具,包括生成SRT文件翻译为中文的说明(作为示例):
https://github.com/EtienneAb3d/ChatMate

Google Colab

标准Whisper:
https://colab.research.google.com/drive/1-GpXaNaGFXKX9VXl60JGVVrGO41t09KA?usp=sharing

Faster Whisper:
https://colab.research.google.com/drive/1RkvOtUTbUD5NVsRI4aKEqJO8BRo8BFIY?usp=sharing

安装

在Google Colab上将ffmpeg升级到4.4版本

! add-apt-repository -y ppa:savoury1/ffmpeg4
! apt-get -qq install -y ffmpeg

!ffmpeg -version

输出:
==========
ffmpeg version 4.4.3-0ubuntu1~20.04.sav2 Copyright (c) 2000-2022 the FFmpeg developers
[...]

Demucs(如果使用)

pip install -U demucs

Spleeter(如果使用)

pip install spleeter

标准Whisper(如果使用)

sudo apt update && sudo apt install ffmpeg

sudo apt install python3
sudo apt install python3-pip
sudo apt install virtualenv

virtualenv -p python3 ../venvWhisper
. ../venvWhisper/bin/activate

pip install -U openai-whisper

pip3 install torchaudio

Faster Whisper(如果替代Whisper使用)

sudo apt update && sudo apt install ffmpeg

sudo apt install python3
sudo apt install python3-pip
sudo apt install virtualenv

virtualenv -p python3 ../venvFasterWhisper
. ../venvFasterWhisper/bin/activate

git clone https://github.com/guillaumekln/faster-whisper.git
cd faster-whisper/

pip install -e .[conversion]
pip install -e .

cd ..

ct2-transformers-converter --model openai/whisper-medium --output_dir whisper-medium-ct2 --quantization float16
ct2-transformers-converter --model openai/whisper-large --output_dir whisper-large-ct2 --quantization float16

pip3 install torchaudio

SM4T(如果替代Whisper使用)

sudo apt update && sudo apt install ffmpeg

sudo apt install python3
sudo apt install python3-pip
sudo apt install virtualenv

virtualenv -p python3 ../venvSM4T
. ../venvSM4T/bin/activate

git clone https://github.com/facebookresearch/seamless_communication.git
cd seamless_communication/

pip install --upgrade pip
pip install .

m4t_predict "On ne fait pas d'omelette sans casser des oeufs." t2tt eng --src_lang fra

pip3 install torchaudio

代码

from transcribeHallu import loadModel
from transcribeHallu import transcribePrompt

##### 音频语言可能与输出转录的语言不同
path="/path/to/your/en/sound/file"
lngInput="en"

##### 对音乐文件激活此选项以获得最小处理
isMusic=False

##### 需要针对每种语言进行调整
##### 提示示例,请参见transcribeHallu.py getPrompt(lng:str)
lng="en"
prompt= "Whisper, Ok. "\
	+"A pertinent sentence for your purpose in your language. "\
	+"Ok, Whisper. Whisper, Ok. "\
	+"Ok, Whisper. Whisper, Ok. "\
	+"Please find here, an unlikely ordinary sentence. "\
	+"This is to avoid a repetition to be deleted. "\
	+"Ok, Whisper. "

##### 要使用的模型大小
modelSize="medium"
loadModel("0",modelSize=modelSize)

result = transcribePrompt(path=path, lng=lng, prompt=prompt, lngInput=lngInput,isMusic=isMusic)

此工具展示了我们的专业知识。
如果您对商业/工业AI语言项目感兴趣,请联系我们:
https://cubaix.com
项目侧边栏1项目侧边栏2
推荐项目
Project Cover

豆包MarsCode

豆包 MarsCode 是一款革命性的编程助手,通过AI技术提供代码补全、单测生成、代码解释和智能问答等功能,支持100+编程语言,与主流编辑器无缝集成,显著提升开发效率和代码质量。

Project Cover

AI写歌

Suno AI是一个革命性的AI音乐创作平台,能在短短30秒内帮助用户创作出一首完整的歌曲。无论是寻找创作灵感还是需要快速制作音乐,Suno AI都是音乐爱好者和专业人士的理想选择。

Project Cover

有言AI

有言平台提供一站式AIGC视频创作解决方案,通过智能技术简化视频制作流程。无论是企业宣传还是个人分享,有言都能帮助用户快速、轻松地制作出专业级别的视频内容。

Project Cover

Kimi

Kimi AI助手提供多语言对话支持,能够阅读和理解用户上传的文件内容,解析网页信息,并结合搜索结果为用户提供详尽的答案。无论是日常咨询还是专业问题,Kimi都能以友好、专业的方式提供帮助。

Project Cover

阿里绘蛙

绘蛙是阿里巴巴集团推出的革命性AI电商营销平台。利用尖端人工智能技术,为商家提供一键生成商品图和营销文案的服务,显著提升内容创作效率和营销效果。适用于淘宝、天猫等电商平台,让商品第一时间被种草。

Project Cover

吐司

探索Tensor.Art平台的独特AI模型,免费访问各种图像生成与AI训练工具,从Stable Diffusion等基础模型开始,轻松实现创新图像生成。体验前沿的AI技术,推动个人和企业的创新发展。

Project Cover

SubCat字幕猫

SubCat字幕猫APP是一款创新的视频播放器,它将改变您观看视频的方式!SubCat结合了先进的人工智能技术,为您提供即时视频字幕翻译,无论是本地视频还是网络流媒体,让您轻松享受各种语言的内容。

Project Cover

美间AI

美间AI创意设计平台,利用前沿AI技术,为设计师和营销人员提供一站式设计解决方案。从智能海报到3D效果图,再到文案生成,美间让创意设计更简单、更高效。

Project Cover

AIWritePaper论文写作

AIWritePaper论文写作是一站式AI论文写作辅助工具,简化了选题、文献检索至论文撰写的整个过程。通过简单设定,平台可快速生成高质量论文大纲和全文,配合图表、参考文献等一应俱全,同时提供开题报告和答辩PPT等增值服务,保障数据安全,有效提升写作效率和论文质量。

投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号