WhisperFusion

WhisperFusion 低延迟高性能的实时AI语音交互系统

WhisperFusion 实时语音转文字大语言模型 TensorRT优化 GPU加速 Github 开源项目

WhisperFusion是一个开源项目，结合WhisperLive和WhisperSpeech技术，集成Mistral大语言模型，实现实时语音转文本和智能对话。项目采用TensorRT引擎优化模型性能，使用torch.compile加速处理，在RTX 4090 GPU上实现低延迟对话。通过Docker Compose简化部署，方便开发者快速搭建AI语音交互系统。

访问官网

Github

介绍相关项目

WhisperFusion

与AI进行无缝对话（超低延迟）

欢迎使用WhisperFusion。WhisperFusion在WhisperLive和WhisperSpeech的基础上，通过在实时语音转文本管道之上集成Mistral大型语言模型（LLM），进一步扩展了其功能。LLM和Whisper都经过优化，可作为TensorRT引擎高效运行，最大化性能和实时处理能力。同时，WhisperSpeech通过torch.compile进行了优化。

特性

实时语音转文本：利用OpenAI WhisperLive实时将口语转换为文本。
大型语言模型集成：添加Mistral大型语言模型，增强对转录文本的理解和上下文把握。
TensorRT优化：LLM和Whisper都经过优化，作为TensorRT引擎运行，确保高性能和低延迟处理。
torch.compile：WhisperSpeech使用torch.compile加速推理，通过JIT编译PyTorch代码为优化内核，提高PyTorch代码运行速度。

硬件要求

至少24GB RAM的GPU
为获得最佳延迟，GPU的FP16（半精度）TFLOPS应与RTX 4090相近。RTX 4090的硬件规格可供参考。

演示在单个RTX 4090 GPU上运行。WhisperFusion使用Nvidia TensorRT-LLM库为流行的LLM模型提供CUDA优化版本。TensorRT-LLM支持多GPU，因此在多GPU上运行WhisperFusion以获得更好性能应该是可行的。

开始使用

我们提供了Docker Compose设置，简化预构建TensorRT-LLM docker容器的部署。此设置包括转换为TensorRT引擎的Whisper和Phi，以及预下载的WhisperSpeech模型，以便快速开始与WhisperFusion交互。此外，我们还包含了Web GUI的简单Web服务器。

使用docker compose构建和运行

mkdir docker/scratch-space
cp docker/scripts/build-* docker/scripts/run-whisperfusion.sh docker/scratch-space/

docker compose build
export MODEL=Phi-3-mini-4k-instruct    #Phi-3-mini-128k-instruct或phi-2，默认WhisperFusion使用phi-2
docker compose up

在http://localhost:8000启动Web GUI

注意

联系我们

如有问题或疑问，请提出issue。联系方式： marcus.edel@collabora.com, jpc@collabora.com, vineet.suryan@collabora.com

相关项目

项目侧边栏1

项目侧边栏2

推荐项目

Project Cover

豆包MarsCode

豆包 MarsCode 是一款革命性的编程助手，通过AI技术提供代码补全、单测生成、代码解释和智能问答等功能，支持100+编程语言，与主流编辑器无缝集成，显著提升开发效率和代码质量。

Project Cover

AI写歌

Suno AI是一个革命性的AI音乐创作平台，能在短短30秒内帮助用户创作出一首完整的歌曲。无论是寻找创作灵感还是需要快速制作音乐，Suno AI都是音乐爱好者和专业人士的理想选择。

Project Cover

有言AI

有言平台提供一站式AIGC视频创作解决方案，通过智能技术简化视频制作流程。无论是企业宣传还是个人分享，有言都能帮助用户快速、轻松地制作出专业级别的视频内容。

Project Cover

Kimi

Kimi AI助手提供多语言对话支持，能够阅读和理解用户上传的文件内容，解析网页信息，并结合搜索结果为用户提供详尽的答案。无论是日常咨询还是专业问题，Kimi都能以友好、专业的方式提供帮助。

Project Cover

阿里绘蛙

绘蛙是阿里巴巴集团推出的革命性AI电商营销平台。利用尖端人工智能技术，为商家提供一键生成商品图和营销文案的服务，显著提升内容创作效率和营销效果。适用于淘宝、天猫等电商平台，让商品第一时间被种草。

Project Cover

吐司

探索Tensor.Art平台的独特AI模型，免费访问各种图像生成与AI训练工具，从Stable Diffusion等基础模型开始，轻松实现创新图像生成。体验前沿的AI技术，推动个人和企业的创新发展。

Project Cover

SubCat字幕猫

SubCat字幕猫APP是一款创新的视频播放器，它将改变您观看视频的方式！SubCat结合了先进的人工智能技术，为您提供即时视频字幕翻译，无论是本地视频还是网络流媒体，让您轻松享受各种语言的内容。

Project Cover

美间AI

美间AI创意设计平台，利用前沿AI技术，为设计师和营销人员提供一站式设计解决方案。从智能海报到3D效果图，再到文案生成，美间让创意设计更简单、更高效。

Project Cover

稿定AI

稿定设计是一个多功能的在线设计和创意平台，提供广泛的设计工具和资源，以满足不同用户的需求。从专业的图形设计师到普通用户，无论是进行图片处理、智能抠图、H5页面制作还是视频剪辑，稿定设计都能提供简单、高效的解决方案。该平台以其用户友好的界面和强大的功能集合，帮助用户轻松实现创意设计。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com

@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号