WhisperFusion
与AI进行无缝对话(超低延迟)
欢迎使用WhisperFusion。WhisperFusion在WhisperLive和WhisperSpeech的基础上,通过在实时语音转文本管道之上集成Mistral大型语言模型(LLM),进一步扩展了其功能。LLM和Whisper都经过优化,可作为TensorRT引擎高效运行,最大化性能和实时处理能力。同时,WhisperSpeech通过torch.compile进行了优化。
特性
-
实时语音转文本:利用OpenAI WhisperLive实时将口语转换为文本。
-
大型语言模型集成:添加Mistral大型语言模型,增强对转录文本的理解和上下文把握。
-
TensorRT优化:LLM和Whisper都经过优化,作为TensorRT引擎运行,确保高性能和低延迟处理。
-
torch.compile:WhisperSpeech使用torch.compile加速推理,通过JIT编译PyTorch代码为优化内核,提高PyTorch代码运行速度。
硬件要求
- 至少24GB RAM的GPU
- 为获得最佳延迟,GPU的FP16(半精度)TFLOPS应与RTX 4090相近。RTX 4090的硬件规格可供参考。
演示在单个RTX 4090 GPU上运行。WhisperFusion使用Nvidia TensorRT-LLM库为流行的LLM模型提供CUDA优化版本。TensorRT-LLM支持多GPU,因此在多GPU上运行WhisperFusion以获得更好性能应该是可行的。
开始使用
我们提供了Docker Compose设置,简化预构建TensorRT-LLM docker容器的部署。此设置包括转换为TensorRT引擎的Whisper和Phi,以及预下载的WhisperSpeech模型,以便快速开始与WhisperFusion交互。此外,我们还包含了Web GUI的简单Web服务器。
- 使用docker compose构建和运行
mkdir docker/scratch-space
cp docker/scripts/build-* docker/scripts/run-whisperfusion.sh docker/scratch-space/
docker compose build
export MODEL=Phi-3-mini-4k-instruct #Phi-3-mini-128k-instruct或phi-2,默认WhisperFusion使用phi-2
docker compose up
- 在
http://localhost:8000
启动Web GUI
注意
联系我们
如有问题或疑问,请提出issue。联系方式: marcus.edel@collabora.com, jpc@collabora.com, vineet.suryan@collabora.com