transcriptionstream项目简介
transcriptionstream是一个功能全面的自托管离线转录和说话人分离服务。它提供了以下主要特性:
- 通过SSH进行拖放式转录和说话人分离
- 用于上传、审核和下载文件的Web界面
- 使用Ollama和Mistral进行摘要生成
- 使用Meilisearch进行全文搜索
该项目旨在简化转录工作流程,并提供强大的离线处理能力。
核心功能及资源
1. 安装和使用
这两个视频可以帮助您快速上手transcriptionstream的安装和使用。
2. Web界面
transcriptionstream提供了功能丰富的Web界面,支持:
- 音频文件上传/下载
- 任务完成提醒和交互式链接
- HTML5网页播放器(带速度控制和转录高亮)
- 时间同步的转录浏览/高亮/滚动
Web界面的访问地址为: http://dockerip:5006
3. SSH上传和处理
除了Web界面,transcriptionstream还支持通过SSH上传文件进行处理:
- SSH端口: 22222
- 用户名: transcriptionstream
- 密码: nomoresaastax
- 使用方法:将音频文件放入
transcribe
或diarize
文件夹,处理完成的文件会存储在transcribed
文件夹中
4. 说话人分离示例
transcriptionstream能够准确地区分不同说话人,并为每个说话人生成单独的转录内容。
5. 摘要生成
使用Ollama和Mistral,transcriptionstream可以为转录内容生成摘要:
摘要生成的API端点: http://dockerip:11434
6. 全文搜索
transcriptionstream集成了Meilisearch,提供快速的全文搜索功能。
Meilisearch API端点: http://dockerip:7700
进阶配置和故障排除
- 在
.env
文件中更新变量 - 在
ts-gpu
Dockerfile中修改transcriptionstream
用户的密码 - 在
.env
中更新Ollama API端点IP(如需使用不同端点) - 在
.env
中为ts-web更新secret - 使用
.env
选择初始构建中包含的模型 - 在
ts-gpu/ts-summarize.py
中修改提示文本以适应您的需求 - 如果遇到GPU内存不足的问题,可以调整whisper-diarization和whisperx的批处理大小
总结
transcriptionstream为需要进行大规模转录和说话人分离的用户提供了一个功能强大且易于使用的解决方案。通过本文介绍的资源,读者可以快速上手并充分利用这一工具的各项功能。随着项目的不断发展,我们期待看到更多强大的特性被添加进来。
欢迎访问transcriptionstream的GitHub仓库了解更多信息,并为这个开源项目做出贡献!