nb-whisper-small - 先进的挪威语自动语音识别开源项目

nb-whisper-small：挪威语音识别的新时代

nb-whisper-small 是由挪威国家图书馆开发的一个创新性自动语音识别（ASR）和语音翻译模型。作为NB-Whisper系列的一部分，这个模型代表了挪威语音技术的重要进步。

模型概述

nb-whisper-small 是基于OpenAI的Whisper模型架构开发的。它具有以下特点：

参数量：244M
训练数据：800万个30秒长的音频样本，总计66000小时的语音数据
训练步数：250,000步
支持语言：挪威语（包括书面挪威语和新挪威语）和英语
开源协议：Apache 2.0

模型系列

NB-Whisper系列包含多个不同规模的模型：

Tiny (39M参数)
Base (74M参数)
Small (244M参数)
Medium (769M参数)
Large (1550M参数)

每个规模的模型都有三个版本:

标准版：适用于大多数转录任务
逐字版：更适合需要详细转录的语言分析任务
语义版：专注于捕捉内容要点，适合会议记录和字幕制作

使用方法

nb-whisper-small 可以通过多种方式使用：

在线演示：可以在HuggingFace页面上直接尝试模型。

本地部署：使用HuggingFace Transformers库，只需几行Python代码即可运行模型。

from transformers import pipeline

asr = pipeline("automatic-speech-recognition", "NbAiLabBeta/nb-whisper-small")
result = asr("audio.mp3", generate_kwargs={'task': 'transcribe', 'language': 'no'})

高级功能：支持长音频转录、提高精度、时间戳生成、单词级时间戳等功能。
Whisper CPP：提供了C++实现，可用于开发实时应用程序。
WhisperX和说话人分离：可以与WhisperX结合使用，实现说话人分离功能。

应用场景

nb-whisper-small 模型在多个领域都有潜在的应用：

语音转文字：将挪威语音频快速转换为文本
会议记录：自动记录会议内容
字幕生成：为视频内容生成准确的挪威语字幕
语言研究：为语言学家提供详细的语音分析工具
辅助技术：为听障人士提供语音转文字服务

未来展望

作为一个持续发展的项目，NB-Whisper团队计划进一步优化模型性能，扩大应用范围。他们鼓励社区参与，提供反馈，共同推动挪威语音技术的发展。

nb-whisper-small 的推出标志着挪威语音识别技术迈入了一个新的阶段。它不仅为研究人员和开发者提供了强大的工具，也为挪威语的数字化和信息无障碍化做出了重要贡献。