openai-whisper

Next.js实现的自动语音识别，支持实时转录和录音回放

openai-whisper Next.js 语音识别自动化转录实时转录 Github 开源项目

本项目是基于OpenAI Whisper的自动语音识别系统webapp，使用Next.js框架开发。它能自动录音并上传至服务器进行转录和翻译，然后将结果返回前端。支持录音回放以验证输出效果，同时可通过设置消除背景噪音和调整录音暂停时间。项目仍在开发中，提供多种配置选项，适合需要快速实现语音转录功能的开发者。

访问官网

Github

介绍相关项目

quillman - 开源的实时语音转录和语言模型对话应用

GithubMetavoice Tortoise TTSModalOpenAI WhisperQuiLLManZephyr开源项目

一个开源项目，提供实时语音转录和自然语音合成的聊天应用，使用Zephyr语言模型和OpenAI Whisper技术。适用于开发和实验自定义语言模型应用，可在Modal平台上无服务器部署。提供在线演示、详细文档和模块化结构，方便本地开发和部署。

tiny-random-whisper - 轻量级随机耳语模型为语音识别提供高效解决方案

Apache 2.0GithubHuggingface代码共享开源许可开源项目模型知识产权软件协议

tiny-random-whisper是一个轻量级随机耳语模型，用于语音识别。该项目采用随机化技术，在保持小型模型体积的同时实现良好的识别性能。适用于资源受限设备和快速部署场景，为开发者提供灵活的语音识别工具。

faster-whisper-medium - 多语言语音识别与转录的高效开源解决方案

CTranslate2GithubHuggingfaceWhisper多语言开源项目模型模型转换自动语音识别

该项目是基于OpenAI Whisper medium模型转换而来的CTranslate2格式模型，为faster-whisper项目提供支持。支持90多种语言的语音识别和转录功能，性能优异且准确度高。用户可通过faster-whisper轻松实现音频文件的高效转录，获取精确的时间戳和文本输出。模型采用float16量化，计算类型可根据需求灵活调整，适用于多种语音识别应用场景。

faster-whisper-large-v2 - 基于Whisper large-v2的高效多语言语音转文本模型

CTranslate2GithubHuggingfaceWhisper开源项目模型模型转换自然语言处理语音识别

该项目是OpenAI Whisper large-v2模型的CTranslate2转换版本，旨在提供高效的自动语音识别功能。支持超过100种语言，通过faster-whisper库实现简便调用。模型采用FP16格式存储，支持运行时计算类型调整，以优化性能。这一工具能够快速准确地完成语音到文本的转换，适用于多种应用场景，为开发者提供了强大的语音识别解决方案。

Whisperback - 多语言有声书和播客AI翻译服务

AI工具多语言文本转语音语音助手语音合成语音技术

这款AI翻译工具专注于有声书和播客的多语种转换。通过50多种语音选项和精准的语音合成技术，实现全球主要语言和方言的高质量、本地化音频翻译。平台致力于消除语言障碍，使全球用户能够便捷地享受多语种有声内容。支持英语、法语、德语、西班牙语等主要语言，精准捕捉口音和地域特色，提供专业的AI驱动翻译体验。

faster-whisper-small - 优化的Whisper小型模型实现快速多语言语音转文本

CTranslate2GithubHuggingfaceWhisper开源项目模型模型转换自然语言处理语音识别

faster-whisper-small是OpenAI Whisper小型模型的优化版本，适用于CTranslate2框架。这个模型支持90多种语言的自动语音识别，采用float16量化以提高效率。开发者可通过faster-whisper库轻松集成该模型，适用于多种语音转文本场景。模型具有快速处理能力和广泛的语言覆盖范围，为自动语音识别任务提供了实用的解决方案。

whisper-base-bungoma.en - 基于Whisper的英语语音识别模型优化Azure数据集处理

AzureGithubHuggingfaceOpenAI Whisper开源项目机器学习模型模型训练语音识别

该语音识别系统通过微调openai/whisper-base.en基础模型，针对Azure数据集进行优化。模型采用了先进的优化算法，经过精细训练后词错误率降至25.28%，实现了稳定的英语语音识别效果。

transcriptionstream - 离线的自托管语音识别服务，支持快速文本搜索

GithubMeilisearchMistralOllamaTranscription Streamwhisper-diarization开源项目

Transcription Stream是一款离线运行的自托管语音识别与多说话者分离服务，支持拖放操作、SSH文件传输、Ollama和Mistral的摘要生成，以及Meilisearch带来的快速全文搜索功能。用户可以通过Web界面或SSH上传、审阅和下载处理后的文件，结果存储在相应的命名和标日期的文件夹中。

RealtimeSTT_LLM_TTS - 整合语音识别与AI对话的开源项目

GPU支持GithubRealtimeSTT唤醒词实时转录开源项目语音转文字

该项目集成语音识别、AI对话和语音合成,支持GPU加速以实现低延迟交互。具备语音检测、实时转录和唤醒词等功能,可用于开发语音助手和AI对话应用。Web界面支持个性化配置,适合快速构建语音交互系统。

faster-whisper-large-v3-turbo-ct2 - 基于Whisper large-v3的多语言语音识别模型

CTranslate2GithubHuggingfaceWhisperfaster-whisper多语言支持开源项目模型语音识别

这是一个基于OpenAI Whisper large-v3模型优化的CTranslate2版本，专注于高效的语音识别。该模型支持100多种语言的转录，兼具准确性和速度。通过faster-whisper库，可以便捷地进行音频转录。模型采用FP16格式存储，计算类型可灵活调整。这为语音识别应用的开发提供了一个强大的工具。

相关项目

项目侧边栏1

项目侧边栏2

推荐项目

Project Cover

豆包MarsCode

豆包 MarsCode 是一款革命性的编程助手，通过AI技术提供代码补全、单测生成、代码解释和智能问答等功能，支持100+编程语言，与主流编辑器无缝集成，显著提升开发效率和代码质量。

Project Cover

AI写歌

Suno AI是一个革命性的AI音乐创作平台，能在短短30秒内帮助用户创作出一首完整的歌曲。无论是寻找创作灵感还是需要快速制作音乐，Suno AI都是音乐爱好者和专业人士的理想选择。

Project Cover

有言AI

有言平台提供一站式AIGC视频创作解决方案，通过智能技术简化视频制作流程。无论是企业宣传还是个人分享，有言都能帮助用户快速、轻松地制作出专业级别的视频内容。

Project Cover

Kimi

Kimi AI助手提供多语言对话支持，能够阅读和理解用户上传的文件内容，解析网页信息，并结合搜索结果为用户提供详尽的答案。无论是日常咨询还是专业问题，Kimi都能以友好、专业的方式提供帮助。

Project Cover

阿里绘蛙

绘蛙是阿里巴巴集团推出的革命性AI电商营销平台。利用尖端人工智能技术，为商家提供一键生成商品图和营销文案的服务，显著提升内容创作效率和营销效果。适用于淘宝、天猫等电商平台，让商品第一时间被种草。

Project Cover

吐司

探索Tensor.Art平台的独特AI模型，免费访问各种图像生成与AI训练工具，从Stable Diffusion等基础模型开始，轻松实现创新图像生成。体验前沿的AI技术，推动个人和企业的创新发展。

Project Cover

SubCat字幕猫

SubCat字幕猫APP是一款创新的视频播放器，它将改变您观看视频的方式！SubCat结合了先进的人工智能技术，为您提供即时视频字幕翻译，无论是本地视频还是网络流媒体，让您轻松享受各种语言的内容。

Project Cover

美间AI

美间AI创意设计平台，利用前沿AI技术，为设计师和营销人员提供一站式设计解决方案。从智能海报到3D效果图，再到文案生成，美间让创意设计更简单、更高效。

Project Cover

稿定AI

稿定设计是一个多功能的在线设计和创意平台，提供广泛的设计工具和资源，以满足不同用户的需求。从专业的图形设计师到普通用户，无论是进行图片处理、智能抠图、H5页面制作还是视频剪辑，稿定设计都能提供简单、高效的解决方案。该平台以其用户友好的界面和强大的功能集合，帮助用户轻松实现创意设计。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com

@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号