简介
Whisper是一个由OpenAI开发的开源库,其主要功能是将音频转换为文本,简单来说,就是帮助我们从音频内容中提取文字。这项技术在很多领域都有广泛应用,比如语音识别、字幕生成等。
特点
跨平台支持
Whisper项目目前支持多个平台,虽然并不是所有的平台都已实现,但它已经可以在Linux、Android和CLI等平台上运行。尚未支持的平台包括Windows、macOS、Web和iOS。
实时转录
Whisper的目标是实现实时转录功能,目前暂未完全实现。最终版本将能够在多个平台上进行实时的语音转录,包括Android、Linux、macOS和CLI等。
自动转录
Whisper将来还计划支持自动转录各种类型的音频和视频,不需要手动转换为特定的格式如wav。目前,这依然在开发中。
测试设备
为了验证Whisper的功能,项目在多种设备上进行了测试,包括:
- Realme 5(Android系统,3GB内存)
- MSI Modern 14(Ubuntu 24.04系统,16GB内存)
- Xiaomi Redmi 4a(MIUI系统,2GB内存)
- Acer服务器(Ubuntu 24.04系统)
项目支持
由于目前的开发设备有限,项目希望得到经济上的支持,以便能够在更多的设备和平台上进行开发测试。任何捐赠都将用于购买新设备,以加速软件的开发进度。
项目背景
Whisper的代码此前版本存在混乱,所以项目负责人决定重写代码,以确保软件能够在多个平台上顺利运行,并支持来自于Whisper.cpp的最新功能。
技术实现
Whisper主要依赖以下几个方面的技术实现:
-
Dart语言支持:通过借鉴whisper.cpp的CLI代码示例,开发者在Dart环境下实现了类似的功能。
-
Flutter支持:由于Flutter使用Dart语言,所以在Dart上实现的功能,同样能够在Flutter中表现良好。
-
Web与WASM支持:通过调整基础代码结构,实现将Whisper部署到Web端,虽然部分自动转换功能可能无法使用。
为什么支持这个项目?
大多数类似的开源项目只是专注于某一特定平台,而Whisper的目标是跨平台支持。通过捐赠或关注项目社交媒体,您可以助力更快推出更新版本和增加平台支持。
安装与快速开始
虽然Whisper已经支持跨平台功能,但目前还没有在pub.dev上发布Dart相关的标签。开发团队在库中已添加Flutter支持,用户只需根据不同的平台调整导入部分即可。
许可
项目遵循Apache License 2.0协议,用户可以在一定条件下自由使用和修改代码,但请务必注明原作者及项目的链接。