Project Icon

wordcab-transcribe

开源语音识别与说话人分离API

Wordcab Transcribe是一个基于FastAPI的开源语音识别API。它使用faster-whisper进行音频转录,自动调谐谱聚类技术实现说话人分离。该项目具有处理速度快、易于部署、支持批量请求等特点,可通过本地开发或Docker部署。API支持音频文件和YouTube视频的转录,适用于商业用途。

Talkify - 多语言支持的高品质文字转语音库
API密钥GithubTalkify多语言支持开源项目文本转语音高品质声音
Talkify为多语言环境提供高品质的文字转语音服务。该库支持范围广泛的语言,包括中文和英文,便于开发者通过几个简单步骤集成至任何网站。具有全面的API支持和控制界面,每月初次1000次请求免费。立即注册以体验先进的语音合成服务。
faster-whisper-base.en - 基于CTranslate2的Whisper英语语音识别模型
CTranslate2GithubHuggingfaceWhisperfaster-whisper开源项目模型模型转换语音识别
faster-whisper-base.en是OpenAI Whisper base.en模型的CTranslate2格式转换版本,专为英语语音识别优化。该模型利用CTranslate2框架提高处理速度,支持FP16量化以适应不同计算环境。开发者可通过faster-whisper等项目简单实现音频转录,为语音识别应用提供高效解决方案。模型采用MIT许可证,便于在各类项目中应用。该模型特别适用于需要实时处理或资源受限的环境,如移动设备或边缘计算设备上的语音识别应用。相比原始Whisper模型,faster-whisper-base.en在保持识别准确度的同时,显著提高了处理速度和资源利用效率。
TranscribeMe - 提升语音转文字效率的WhatsApp和Telegram辅助工具
AI工具TelegramTranscribeMeWhatsApp人工智能语音转文字
TranscribeMe是一款语音转文字工具,专门用于将WhatsApp和Telegram的语音消息转换为文本。该工具无需额外下载,操作简便,支持多语言翻译。集成的ChatGPT功能可回答用户问题。TranscribeMe重视隐私保护,不存储音频数据。适用于个人和企业用户,有助于提高沟通效率。
Deepgram Voice AI - 提供用于语音转文本、文本转语音和语言理解的 API的AI语音平台
AI工具AI模型AI音频Deepgram文本转语音热门语音AI语音转文本音频生成
Deepgram Voice AI平台,采用最新Nova-2语音识别模型,提供实时、高效和低成本的语音转文字与文字转语音APIs,适用于医疗转录、客户服务与媒体字幕制作等多种场景。
WhisperKit - Swift语音识别框架实现Apple设备本地推理
Apple设备CoreMLGithubSwiftWhisperKit开源项目语音识别
WhisperKit是一个集成OpenAI Whisper模型和Apple CoreML框架的Swift语音识别包。该框架支持Apple设备上的本地推理,具有自动选择适用模型、自定义模型部署等功能。WhisperKit提供音频转录API和命令行工具,便于开发者使用和测试。作为开源项目,WhisperKit欢迎社区贡献,不断优化其性能和功能。
whisper-turbo - 基于WebGPU的浏览器端语音转文字引擎
GithubWebGPUWhisper Turbo开源项目浏览器语音识别跨平台
Whisper Turbo是一个基于WebGPU技术的开源语音识别项目,专门为浏览器和Electron应用设计。这款跨平台工具能在客户端高效执行语音转文字任务,目前支持Windows和MacOS上的Chromium浏览器。项目提供在线演示和详细文档,其核心由Rust编写的Ratchet库提供支持,确保了卓越的性能表现。
RealtimeSTT_LLM_TTS - 整合语音识别与AI对话的开源项目
GPU支持GithubRealtimeSTT唤醒词实时转录开源项目语音转文字
该项目集成语音识别、AI对话和语音合成,支持GPU加速以实现低延迟交互。具备语音检测、实时转录和唤醒词等功能,可用于开发语音助手和AI对话应用。Web界面支持个性化配置,适合快速构建语音交互系统。
supertranslate - AI视频自动英语字幕生成工具
AI工具OpenAI Whisper字幕生成自动化视频语音转文字
supertranslate利用OpenAI Whisper技术,为多语言视频自动生成高质量英语字幕。其直观的编辑界面支持字幕分割、合并和时间码调整。工具提供免费试用,无需信用卡,随时可取消,适合视频创作者和内容团队使用。
RuntimeSpeechRecognizer - 基于OpenAI的Whisper的语音识别项目
GithubOpenAI's WhisperRuntime Speech RecognizerUnreal Engine开源项目语音识别高性能
RuntimeSpeechRecognizer是一个高效的语音识别项目,基于OpenAI的Whisper技术,提供快速且准确的识别。支持英语和多语言(多达100种语言),提供从75 MB到2.9 GB多种模型尺寸。自动下载语言模型,支持将识别的语音翻译成英语,特性可定制,无需静态库或外部依赖,兼容多个平台(Windows、Mac、Linux、Android、iOS等)。
项目侧边栏1项目侧边栏2
推荐项目
Project Cover

豆包MarsCode

豆包 MarsCode 是一款革命性的编程助手,通过AI技术提供代码补全、单测生成、代码解释和智能问答等功能,支持100+编程语言,与主流编辑器无缝集成,显著提升开发效率和代码质量。

Project Cover

AI写歌

Suno AI是一个革命性的AI音乐创作平台,能在短短30秒内帮助用户创作出一首完整的歌曲。无论是寻找创作灵感还是需要快速制作音乐,Suno AI都是音乐爱好者和专业人士的理想选择。

Project Cover

有言AI

有言平台提供一站式AIGC视频创作解决方案,通过智能技术简化视频制作流程。无论是企业宣传还是个人分享,有言都能帮助用户快速、轻松地制作出专业级别的视频内容。

Project Cover

Kimi

Kimi AI助手提供多语言对话支持,能够阅读和理解用户上传的文件内容,解析网页信息,并结合搜索结果为用户提供详尽的答案。无论是日常咨询还是专业问题,Kimi都能以友好、专业的方式提供帮助。

Project Cover

阿里绘蛙

绘蛙是阿里巴巴集团推出的革命性AI电商营销平台。利用尖端人工智能技术,为商家提供一键生成商品图和营销文案的服务,显著提升内容创作效率和营销效果。适用于淘宝、天猫等电商平台,让商品第一时间被种草。

Project Cover

吐司

探索Tensor.Art平台的独特AI模型,免费访问各种图像生成与AI训练工具,从Stable Diffusion等基础模型开始,轻松实现创新图像生成。体验前沿的AI技术,推动个人和企业的创新发展。

Project Cover

SubCat字幕猫

SubCat字幕猫APP是一款创新的视频播放器,它将改变您观看视频的方式!SubCat结合了先进的人工智能技术,为您提供即时视频字幕翻译,无论是本地视频还是网络流媒体,让您轻松享受各种语言的内容。

Project Cover

美间AI

美间AI创意设计平台,利用前沿AI技术,为设计师和营销人员提供一站式设计解决方案。从智能海报到3D效果图,再到文案生成,美间让创意设计更简单、更高效。

Project Cover

AIWritePaper论文写作

AIWritePaper论文写作是一站式AI论文写作辅助工具,简化了选题、文献检索至论文撰写的整个过程。通过简单设定,平台可快速生成高质量论文大纲和全文,配合图表、参考文献等一应俱全,同时提供开题报告和答辩PPT等增值服务,保障数据安全,有效提升写作效率和论文质量。

投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号