相关项目
Miraa
Miraa应用利用AI技术将音视频内容转换为双语字幕,支持实时翻译和同步跟读。用户可按个人节奏进行回声练习,并与AI互动解答疑问。该应用简化字幕制作流程,提高语言学习效率。
Lugs.ai
Lugs.ai是一款AI驱动的离线音频转录和实时字幕生成工具。无需网络连接,可将电脑和麦克风的音频内容快速转换为文字。由听障开发者设计,Lugs.ai能深度理解对话上下文,提供高精度转录。适用于会议记录、学习辅助、视频制作等多种场景。该工具注重用户隐私,持续优化性能,为需要实时字幕的用户提供便捷解决方案。
whispering-ui
Whispering Tiger UI是一个开源项目,提供原生用户界面来控制Whispering Tiger应用。它能够处理实时音频流和游戏画面,进行转录和翻译,并通过WebSocket或OSC将结果输出到浏览器或VRChat。核心功能涵盖语音转文字、文本翻译、文字转语音和图像识别。该工具支持插件扩展,界面友好,适合不同经验水平的用户使用。
parakeet-tdt_ctc-110m
该模型融合FastConformer与TDT-CTC架构,专为英文语音识别而优化,支持转录标点和大写字母。以高效架构处理长达20分钟音频数据,通过NVIDIA NeMo和Suno团队训练,在多个基准数据集中表现优异。通过NeMo工具包,预训练检查点便于进行模型推理或微调。