Project Icon

RuntimeSpeechRecognizer

基于OpenAI的Whisper的语音识别项目

RuntimeSpeechRecognizer是一个高效的语音识别项目,基于OpenAI的Whisper技术,提供快速且准确的识别。支持英语和多语言(多达100种语言),提供从75 MB到2.9 GB多种模型尺寸。自动下载语言模型,支持将识别的语音翻译成英语,特性可定制,无需静态库或外部依赖,兼容多个平台(Windows、Mac、Linux、Android、iOS等)。

RealtimeSTT - 实时语音转文本库 适用于低延迟应用
GithubRealtimeSTT唤醒词实时转录开源项目语音助手语音转文本
RealtimeSTT是一个为实时应用设计的语音转文本库。它集成了语音活动检测、实时转录和唤醒词激活等功能,适合开发语音助手和需要快速精确语音转文本的应用。该库采用WebRTCVAD和SileroVAD进行语音检测,Faster_Whisper执行转录,Porcupine或OpenWakeWord负责唤醒词检测,体现了当前语音识别技术的先进水平。
openai-whisper-talk - 多功能语音对话应用
Chat CompletionsEmbeddingsGithubOpenAIWhisperopenai-whisper-talk开源项目
openai-whisper-talk 是一个集成多项 OpenAI 技术的语音对话应用,组合了 Whisper 自动语音识别、Chat Completions 模拟对话、Text-to-Speech 语音合成功能。最新版本引入了时间表管理与长期记忆功能,能添加、修改、删除和检索事件,并保存信息供未来参考。基于 Vue.js 和 Nuxt 构建,实现了个性化互动,让对话更自然流畅。
whisper-website - 通过Whisper模型实现本地语音转文字
DockerGithubWhisper开源项目本地部署虚拟环境语音转文字
本页面介绍了如何通过Whisper模型将语音转换为文字,包括在本地环境和Docker中的部署方法。提供克隆项目代码、配置虚拟环境或Docker镜像的详细步骤,帮助用户快速启动和测试Whisper模型在本地的运行效果。
docker-whisperX - 优化Docker镜像的WhisperX语音识别与转录解决方案
DockerGPU支持GithubWhisperX开源项目模型构建语音识别
docker-whisperX项目优化了WhisperX语音识别工具的Docker镜像构建流程。该项目实现了175个10GB大小Docker镜像的并行构建,提供多种预构建镜像和自定义选项,支持不同语言和模型。用户可通过GPU加速,获得包含逐字时间戳和说话人分离的高质量语音转文字结果。
whisper-small-fa - Whisper-small-fa模型在Common Voice数据集上的语音识别性能
GithubHuggingfaceTransformers开源项目数据集模型模型评估训练超参数语音识别
Whisper-small-fa是一个基于openai/whisper-small模型在common_voice_17_0数据集上微调的版本,旨在实现高效的自动语音识别。测试集结果显示,该模型的词错误率(WER)为35.4973,体现了其在语音识别中的良好表现。模型训练中应用了Adam优化器、线性学习率调度器及混合精度技术,从而提高了训练的效率和精确度。
SpeechPulse - 智能语音识别转写与多语言支持系统
AI工具多语言支持实时转录语音识别语音输入隐私保护
SpeechPulse整合了实时语音识别、多语言支持和离线处理功能,为用户提供全面的语音转文字解决方案。系统采用Whisper AI模型,支持自动和手动标点、自动语音输入及按键说话等多种模式。内置AI模板可进行语法校正和文本格式化,同时具备音频文件处理、说话人分离和字幕生成功能。适用于各类应用程序,能够满足日常和专业用户的多样化需求,是一款高效且功能丰富的语音识别工具。
whisper-playground - 多语言实时语音转文字程序的快速搭建指南
CondaDiartGithubHugging FacePyannoteWhisper Playground开源项目
借助faster-whisper、Diart和Pyannote,构建支持99种语言的实时语音转文字应用程序。可以通过在线演示版直接体验,并依据清晰的设置指南迅速启动。该项目支持调整多种参数如模型大小、语言选择和转录方法,优化转录体验。项目依赖于Hugging Face Hub上的Pyannote模型,需先接受相应使用条款。提供详细的安装步骤和故障排查指导,方便解决常见问题。
faster-whisper-base - 多语言自动语音识别与转录效率提升的开源工具
CTranslate2GithubHuggingfaceWhisperfaster-whisper开源项目模型模型转换自动语音识别
faster-whisper-base是将OpenAI的Whisper-base模型转换为CTranslate2格式的项目,支持多语言自动语音识别。模型保留FP16精度,用户可以通过CTranslate2的compute_type选项进行模型类型调整,适合需要高效语音转录的应用。
faster-whisper-base.en - 基于CTranslate2的Whisper英语语音识别模型
CTranslate2GithubHuggingfaceWhisperfaster-whisper开源项目模型模型转换语音识别
faster-whisper-base.en是OpenAI Whisper base.en模型的CTranslate2格式转换版本,专为英语语音识别优化。该模型利用CTranslate2框架提高处理速度,支持FP16量化以适应不同计算环境。开发者可通过faster-whisper等项目简单实现音频转录,为语音识别应用提供高效解决方案。模型采用MIT许可证,便于在各类项目中应用。该模型特别适用于需要实时处理或资源受限的环境,如移动设备或边缘计算设备上的语音识别应用。相比原始Whisper模型,faster-whisper-base.en在保持识别准确度的同时,显著提高了处理速度和资源利用效率。
whisper-clip - 一键音频转文本,自动保存到剪贴板
GithubOpenAIWhisperClip剪贴板开源项目自动转录音频转录
WhisperClip是一款自动转录音频并将文本直接保存至剪贴板的工具。只需点击按钮即可将口语转换为书面文本。应用支持Python 3.8及以上版本,使用OpenAI的Whisper技术,无论GPU还是CPU都能选择合适的模型以确保最佳性能。用户可以提供反馈并参与改进项目。
项目侧边栏1项目侧边栏2
推荐项目
Project Cover

豆包MarsCode

豆包 MarsCode 是一款革命性的编程助手,通过AI技术提供代码补全、单测生成、代码解释和智能问答等功能,支持100+编程语言,与主流编辑器无缝集成,显著提升开发效率和代码质量。

Project Cover

AI写歌

Suno AI是一个革命性的AI音乐创作平台,能在短短30秒内帮助用户创作出一首完整的歌曲。无论是寻找创作灵感还是需要快速制作音乐,Suno AI都是音乐爱好者和专业人士的理想选择。

Project Cover

白日梦AI

白日梦AI提供专注于AI视频生成的多样化功能,包括文生视频、动态画面和形象生成等,帮助用户快速上手,创造专业级内容。

Project Cover

有言AI

有言平台提供一站式AIGC视频创作解决方案,通过智能技术简化视频制作流程。无论是企业宣传还是个人分享,有言都能帮助用户快速、轻松地制作出专业级别的视频内容。

Project Cover

Kimi

Kimi AI助手提供多语言对话支持,能够阅读和理解用户上传的文件内容,解析网页信息,并结合搜索结果为用户提供详尽的答案。无论是日常咨询还是专业问题,Kimi都能以友好、专业的方式提供帮助。

Project Cover

讯飞绘镜

讯飞绘镜是一个支持从创意到完整视频创作的智能平台,用户可以快速生成视频素材并创作独特的音乐视频和故事。平台提供多样化的主题和精选作品,帮助用户探索创意灵感。

Project Cover

讯飞文书

讯飞文书依托讯飞星火大模型,为文书写作者提供从素材筹备到稿件撰写及审稿的全程支持。通过录音智记和以稿写稿等功能,满足事务性工作的高频需求,帮助撰稿人节省精力,提高效率,优化工作与生活。

Project Cover

阿里绘蛙

绘蛙是阿里巴巴集团推出的革命性AI电商营销平台。利用尖端人工智能技术,为商家提供一键生成商品图和营销文案的服务,显著提升内容创作效率和营销效果。适用于淘宝、天猫等电商平台,让商品第一时间被种草。

Project Cover

AIWritePaper论文写作

AIWritePaper论文写作是一站式AI论文写作辅助工具,简化了选题、文献检索至论文撰写的整个过程。通过简单设定,平台可快速生成高质量论文大纲和全文,配合图表、参考文献等一应俱全,同时提供开题报告和答辩PPT等增值服务,保障数据安全,有效提升写作效率和论文质量。

投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号