NB-Whisper Large (beta):挪威语音识别的新突破
NB-Whisper Large (beta)是由挪威国家图书馆发布的一个用于自动语音识别(ASR)和语音翻译的模型。这个模型是基于OpenAI的Whisper模型进行开发的,旨在为挪威语提供高质量的语音识别服务。
模型概述
NB-Whisper系列模型共有五种不同规模:
- tiny (3900万参数)
- base (7400万参数)
- small (2.44亿参数)
- medium (7.69亿参数)
- large (15.5亿参数)
这些模型都经过了20,000小时的标记数据训练,能够处理挪威语(包括书面挪威语和新挪威语)和英语。值得注意的是,目前发布的是公开测试版,正式版计划于2023年秋季发布。
模型特点
-
多语言支持:除了挪威语,该模型还支持英语识别。
-
灵活应用:可用于语音识别和语音翻译任务。
-
开源可用:模型采用Creative Commons Attribution 4.0 International (CC BY 4.0)许可证,可供第三方使用。
-
性能优越:在挪威语识别方面,该模型相较于同等规模的其他挪威语ASR模型,能够提供最先进的结果。
使用方法
使用NB-Whisper Large (beta)模型非常简单。以下是一个基本的Python代码示例:
from transformers import pipeline
asr = pipeline(
"automatic-speech-recognition",
"NbAiLab/nb-whisper-large-beta"
)
result = asr(
"audio.mp3",
generate_kwargs={'task': 'transcribe', 'language': 'no'}
)
print(result['text'])
此外,用户还可以通过设置参数来获取时间戳信息。
训练数据
模型的训练数据来自Språkbanken和挪威国家图书馆的数字收藏,包括:
- NST挪威ASR数据库(16 kHz)
- 由Språkbanken制作的挪威议会演讲转录
- 电视广播(NRK)字幕
- 有声读物
注意事项
虽然NB-Whisper Large (beta)在挪威语识别方面表现出色,但用户仍需注意以下几点:
- 这是一个公开测试版,可能存在一些不稳定性。
- 模型可能会出现幻觉或漏掉部分转录内容的情况。
- 转录结果通常不是逐字逐句的,而是将口语转换为语法正确的书面语句。
- 由于部分训练材料来自电视字幕,模型可能会缩短内容以提高可读性。
环境影响
模型训练使用了Google Cloud的TPUv4,估计产生了247.77 kg的二氧化碳排放,这些排放已被云服务提供商完全抵消。
总结
NB-Whisper Large (beta)为挪威语语音识别领域带来了新的可能性。虽然目前还处于测试阶段,但其强大的性能和灵活的应用已经展现出巨大的潜力。随着正式版的发布和进一步的改进,这个模型有望在挪威语自然语言处理领域发挥重要作用。