#语音识别

FunASR是一个全面的开源语音处理工具集，融合了学术研究和工业应用。它不仅支持语音识别模型的训练和微调，还提供了语音活动检测、标点恢复等多种功能。该项目提供大量预训练模型，便于快速构建高效准确的语音识别服务。FunASR以其广泛的功能、高性能和易部署特性，为语音识别技术的研究和应用提供了强大支持。

VITA - 开源全模态交互语言模型

VITA多模态大语言模型人工智能自然语言处理语音识别Github开源项目

VITA是一款开源全模态语言模型，实现了视频、图像、文本和音频的综合处理。其特点包括全模态理解、无唤醒交互和音频中断交互，显著提高了用户体验。通过创新的状态令牌和双工方案，VITA提升了多模态交互体验。在多项基准测试中，VITA展现出优秀性能，为多模态AI研究和应用开辟了新途径，有望推动相关技术的发展。

ACE - 革命性AI技术套件为数字人物赋予生命

NVIDIA ACE数字人生成式AI微服务语音识别Github开源项目

NVIDIA ACE是一套用于创建数字人物的AI技术集。它集成了语音识别、文本翻译和语音合成等先进模型和微服务。ACE支持云端和本地灵活部署，适用于游戏NPC和客服助手等场景。该技术注重安全性和一致性，并提供详细文档，助力开发者构建新一代数字人物应用。

Whisper-Finetune - 语音识别模型的高效微调与加速

Whisper语音识别模型微调加速推理中文识别Github开源项目

Whisper-Finetune项目致力于优化OpenAI的Whisper语音识别模型。该项目采用Lora技术进行微调，支持多种数据类型的训练，并通过CTranslate2和GGML实现加速推理。此外，项目提供了跨平台应用和服务器部署方案，为语音识别应用开发提供了全面支持。

whisper-asr-webservice - 基于Whisper的开源语音识别Web服务

Whisper ASR语音识别DockerGPU支持开源项目Github

whisper-asr-webservice是一个开源的语音识别Web服务，基于OpenAI Whisper模型。它支持OpenAI Whisper和Faster Whisper引擎，提供多语言语音识别、翻译和语言识别功能。项目提供Docker镜像，支持CPU和GPU部署。这个服务具有高性能和易用性，适合各种语音识别应用场景。

wordcab-transcribe - 开源语音识别与说话人分离API

Wordcab Transcribe语音识别API音频转录faster-whisperGithub开源项目

Wordcab Transcribe是一个基于FastAPI的开源语音识别API。它使用faster-whisper进行音频转录，自动调谐谱聚类技术实现说话人分离。该项目具有处理速度快、易于部署、支持批量请求等特点，可通过本地开发或Docker部署。API支持音频文件和YouTube视频的转录，适用于商业用途。

talk-llama-fast - 开源AI语音对话系统支持多语言实时交互及视频生成

talk-llama-fastAI对话语音合成语音识别视频生成Github开源项目

talk-llama-fast是一个开源的AI语音对话系统,支持实时语音识别、自然语言生成和语音合成,可进行多语言交互。系统集成了视频生成功能,能创建与音频同步的唇形动画。采用流式处理和激进VAD等优化技术,实现低延迟响应。提供多种语音命令和中断机制,增强交互体验。适用于开发AI助手、虚拟角色等应用。

ultravox - 实现实时语音交互的多模态大语言模型

Ultravox多模态LLM语音识别实时语音Llama 3Github开源项目

Ultravox 是一个创新的多模态大语言模型，能直接理解文本和语音，无需单独的语音识别步骤。基于 Llama 3 模型，它通过多模态投影器将音频转换为高维空间。Ultravox 的首字响应时间约为 200 毫秒，每秒可生成约 100 个 token，有效支持实时语音交互。目前支持音频输入和文本输出，未来计划增加语音输出功能。

whisper_streaming - 基于Whisper的实时语音转录和翻译开源系统

Whisper实时转录语音识别多语言流式处理Github开源项目

whisper_streaming是基于Whisper模型的实时语音转录和翻译系统。该项目采用本地协议和自适应延迟实现流式转录,在长篇未分段语音测试中实现高质量转录,延迟仅3.3秒。系统提供多种后端选择,支持GPU加速,适用于多语言会议实时转录。项目还提供灵活API,便于开发者集成到不同应用场景。

react-speech-recognition - React语音识别钩子实现实时语音转文本

React语音识别Web Speech API麦克风跨浏览器支持Github开源项目

react-speech-recognition是一个基于Web Speech API的React钩子，能将麦克风捕获的语音实时转换为文本。它支持语音命令、连续监听和多语言识别，提供简单API控制麦克风和访问转录。为实现更广泛的浏览器兼容性，推荐配合语音识别polyfill使用。

Transcribro - 安卓设备本地语音识别键盘

Transcribro语音识别Android隐私保护开源软件Github开源项目

Transcribro是一款安卓语音识别键盘和服务，采用OpenAI Whisper模型和Silero VAD技术。它提供语音输入功能，可作为独立应用或被其他程序调用。所有处理在设备本地进行，确保用户隐私和数据安全。Transcribro支持多种应用场景，为用户提供便捷的语音转文字体验。

whisper-web - 浏览器端实时语音识别技术

Whisper Web语音识别浏览器应用Transformers.jsWebGPUGithub开源项目

Whisper Web是一个基于机器学习的浏览器端语音识别项目。它利用 Transformers.js 技术，在客户端实现实时语音处理，无需服务器支持。该项目提供在线演示和本地部署选项，并正在开发 WebGPU 支持以提高性能。Whisper Web 展示了 Web 技术在语音识别领域的应用潜力，为开发者提供了一个便捷的语音识别解决方案。

WhisperKit - Swift语音识别框架实现Apple设备本地推理

WhisperKit语音识别SwiftApple设备CoreMLGithub开源项目

WhisperKit是一个集成OpenAI Whisper模型和Apple CoreML框架的Swift语音识别包。该框架支持Apple设备上的本地推理，具有自动选择适用模型、自定义模型部署等功能。WhisperKit提供音频转录API和命令行工具，便于开发者使用和测试。作为开源项目，WhisperKit欢迎社区贡献，不断优化其性能和功能。

Qwen2-Audio - 大规模音频语言模型支持语音交互和音频理解

Qwen2-Audio语音识别语音翻译音频分析多语言支持Github开源项目

Qwen2-Audio是一款先进的音频语言模型，可处理多种音频输入并执行分析或生成文本响应。该模型提供语音交互和音频分析两种功能，在13项基准测试中展现出色性能，包括语音识别、翻译和情感分析等任务。目前已发布Qwen2-Audio-7B和Qwen2-Audio-7B-Instruct两个版本。

whisper-turbo - 基于WebGPU的浏览器端语音转文字引擎

Whisper Turbo跨平台语音识别WebGPU浏览器Github开源项目

Whisper Turbo是一个基于WebGPU技术的开源语音识别项目，专门为浏览器和Electron应用设计。这款跨平台工具能在客户端高效执行语音转文字任务，目前支持Windows和MacOS上的Chromium浏览器。项目提供在线演示和详细文档，其核心由Rust编写的Ratchet库提供支持，确保了卓越的性能表现。

Lingvanex - AI多语言翻译和语音识别技术平台

AI工具Lingvanex机器翻译语音识别人工智能语言技术

Lingvanex提供AI驱动的机器翻译和语音识别技术,支持100多种语言的文本、文档、音频和图像翻译,以及91种语言的语音转录。平台提供云端API、本地部署软件和移动SDK等多种解决方案,注重数据安全,采用固定价格模式。产品易于集成,广泛应用于教育、金融、政府和医疗等行业。

Programming Helper - AI代码生成与编程辅助工具

AI工具正则表达式编程算法数据库语音识别

Programming Helper是一款基于AI的编程辅助工具,能根据文本描述自动生成代码。它具备代码生成、修复和测试等功能,支持多种编程语言,有助于提升开发效率。此工具可将自然语言转化为代码片段,还能分析优化现有代码。无论是编程新手还是专业人士,都能从中受益。

ScriptMe - 多语言音视频转录和字幕生成平台

AI工具ScriptMe转录字幕AI语音识别

ScriptMe是一个高效的音视频转录和字幕生成平台。支持30多种语言的快速转录,可将音频和视频内容转换为文本和字幕。提供编辑、导出和分享功能,支持多种格式。适用于媒体制作、政府机构、教育和研究等领域,提高工作效率,节省时间和成本。界面直观,功能强大,是处理音视频内容的实用工具。

TalkTastic - macOS智能语音输入工具提升写作效率

AI工具语音输入人工智能macOS应用隐私控制语音识别

TalkTastic是专为macOS设计的智能语音输入工具，支持在任何应用中使用语音输入文字。相比ChatGPT和OpenAI Whisper，TalkTastic提供更高的准确度。该工具集成智能重写、AI转录和隐私控制功能，能理解上下文并模仿用户写作风格。通过结合设备端AI和多模态语言模型，TalkTastic为作家、创意工作者和忙碌人士提供高效的写作辅助。

Audiotype - 高效多语言音视频转文字软件自动转录准确快速

AI工具语音转文字自动转录软件音频转录视频转录语音识别

Audiotype为专业音视频自动转录软件，支持30多种语言和各类音视频格式。采用AI技术，转录准确率达80-95%，无需注册即可使用。适用于记者、学生、视频制作者等群体，提供字幕生成、文本编辑和分享功能。注重数据隐私，15天后自动删除用户文件，是高效可靠的音视频转文字解决方案。

Felo Subtitles - 实时多语言字幕工具提高在线交流和视频观看体验

AI工具实时字幕多语言翻译视频会议语音识别YouTube

Felo Subtitles是一款实时多语言字幕工具，适用于会议、在线课程和直播。支持Google Meet、Zoom、MS Teams和YouTube等平台，自动识别语音并实时翻译，保护隐私安全。提供YouTube视频实时双语字幕和字幕下载功能。通过多语言字幕，提高跨语言交流效率，增强在线活动的可访问性。支持20+种语言，翻译延迟低至1秒，让全球用户轻松突破语言障碍。

WhisperTranscribe - 音频转文字与AI内容生成一体化平台

AI工具音频转文字内容生成AI转录语音识别WhisperTranscribe

WhisperTranscribe集成了音频转文字和AI内容生成功能。该工具支持55种以上语言的音频转录,并提供字幕翻译服务。通过AI技术,它能自动生成摘要、章节、社交媒体帖子和博客文章等多样化内容。WhisperTranscribe为播客制作者、视频创作者和营销人员提供一站式内容创作解决方案,有助于提升工作效率和扩大受众范围。

Seasalt.ai - AI全渠道客户交互平台

AI工具Seasalt.ai对话体验平台生成式AI语音识别客户服务

Seasalt.ai是一个集成生成式AI和高精度语音识别技术的对话体验平台。其产品线包括SeaX(消息和通话)、SeaChat(AI聊天)和SeaMeet(会议管理)等。该平台致力于帮助企业全面管理文本和语音对话，适用于营销、销售和客户服务等多个领域，支持多种通信渠道，旨在提升客户关系质量。

Talkatoo - 兽医专用智能语音转录软件提升诊疗效率

AI工具Talkatoo语音识别兽医AI记录模板

Talkatoo是专为兽医开发的智能语音转录软件，提供三种服务级别：人工校对、AI自动SOAP记录生成和桌面语音转文字。该软件运用先进的语音识别和人工智能技术，帮助兽医大幅节省时间，提升工作效率。Talkatoo适应不同需求，从全自动到完全可控，让兽医能更专注于提供优质的动物医疗服务。

Kardome - 先进语音用户界面技术研发企业

AI工具语音用户界面语音识别人工智能深度学习Kardome

Kardome专注研发语音用户界面技术,提供基于人工智能的语音增强解决方案。其核心技术包括音频前端处理、空间听觉、声纹识别和自定义唤醒词,可显著提高嘈杂环境中的语音识别准确性。这些技术适用于多种智能设备,为制造商和OEM厂商提供全面的语音交互技术支持,旨在简化语音控制体验。

SpeechPulse - 智能语音识别转写与多语言支持系统

AI工具语音识别语音输入实时转录多语言支持隐私保护

SpeechPulse整合了实时语音识别、多语言支持和离线处理功能，为用户提供全面的语音转文字解决方案。系统采用Whisper AI模型，支持自动和手动标点、自动语音输入及按键说话等多种模式。内置AI模板可进行语法校正和文本格式化，同时具备音频文件处理、说话人分离和字幕生成功能。适用于各类应用程序，能够满足日常和专业用户的多样化需求，是一款高效且功能丰富的语音识别工具。

WavoAI - 音频转录与智能分析一体化平台

AI工具WavoAI语音转文字AI分析自动转录语音识别

WavoAI是一款集音频转录和智能分析于一体的平台。该工具利用精准的语音识别技术快速生成文字记录,同时提供说话人识别、注释和AI驱动的内容分析。支持多语言和多种口音,可轻松整合到现有工作流程中。WavoAI适用于学术研究、媒体制作和商业会议等多个领域,为用户提供高质量的转录服务和数据洞察。

Botjet - 对话式AI平台赋能企业智能化升级

AI工具Botjet对话式AI平台自然语言处理语音识别深度学习

Botjet作为全面的对话式AI平台，集成了先进会话引擎、深度学习、语音识别和合成技术。平台支持多行业应用，包括电商、医疗和银行等领域。它简化了聊天机器人的开发过程，使企业能高效构建智能对话系统，实现流程自动化，增强客户互动，促进AI驱动的业务创新。

InspNote - 智能灵感捕捉与多样化内容创作工具

AI工具InspNoteAI辅助创意记录内容生成语音识别

InspNote是一款智能灵感捕捉工具，结合AI技术实现快速记录和内容生成。用户可将想法转化为待办事项、博客文章、推文和电子邮件等多种形式。平台注重隐私保护，不存储音频记录。多种价格套餐适合不同需求，适用于创意工作者、企业家等重视灵感管理的群体。

Muchtodo - 语音驱动的多语言任务管理工具

AI工具语音识别任务管理生产力工具笔记应用多语言支持

Muchtodo是一款基于语音识别的任务管理工具，支持57种语言，可将语音快速转化为项目、任务和笔记。该平台提供语音和手动两种输入方式，注重用户隐私保护，不存储语音数据。Muchtodo旨在提高工作效率，让用户专注于任务完成而非记录。平台提供7天免费试用，用户可体验智能高效的任务管理方式。日历和看板功能即将推出，进一步增强任务管理能力。

Onyxium - 综合AI工具平台提供多样化人工智能应用服务

AI工具Onyxium AI人工智能工具图像识别文本分析语音识别

Onyxium平台整合了多种AI工具，包括文本生成、图像创建、图像识别、文本分析和语音识别等功能。该平台适用于个人和团队，提供工作流程优化、多语言支持和视频集成等特性。用户可根据需求选择免费或付费计划，灵活使用不同级别的AI服务。Onyxium旨在为用户提供便捷的AI技术接入渠道，助力提升效率和拓展应用领域。

Speechforms - 语音识别技术让表单填写变得简单快捷

AI工具语音填表Speechforms语音识别表单填写人工智能

Speechforms是一款利用AI语音识别技术的创新智能表单应用，彻底改变了传统的表单填写方式。用户只需通过语音输入即可完成表单，无需使用键盘，大大提高了效率和便捷性。这种革命性的方法不仅为用户带来了更舒适的体验，还为各行各业的数据收集过程带来了新的可能。从在线调查到客户反馈，Speechforms在多种场景下都能发挥重要作用，标志着表单填写技术的一次重大革新。利用Speechforms，企业和个人都能更轻松地收集和管理信息，开启数据采集的全新时代。

Voxpad - 高效智能的视频音频转笔记解决方案

AI工具笔记生成AI转录语音识别自动化笔记订阅计划

Voxpad是领先的AI笔记工具，专注于视频转文字和音频转笔记。这款创新工具支持多种文件格式，配备时间戳和智能编辑功能，通过AI自动补全技术提升效率。用户可轻松上传、生成和编辑笔记，享受安全的存储环境。Voxpad提供灵活的订阅计划，满足不同预算需求，是提高学习和工作效率的理想AI笔记解决方案。

UniGPT - 整合多种先进AI模型的一站式智能对话平台

AI工具AI助手聊天界面多模态交互语音识别对话管理

UniGPT整合了ChatGPT、Gemini、Claude等多种先进AI模型和20多个插件，提供一站式智能对话服务。平台支持文本和图像生成，具备多语言界面、语音交互、自定义预设和对话分支等功能。用户可以导入导出对话，使用多种支付方式（包括Stripe安全支付、银行卡、Link、Google Pay和支付宝），轻松访问高效AI解决方案。UniGPT致力于提升用户工作效率，为AI应用提供便捷通道，未来还将扩展到音乐和视频生成领域。

DeepSpeech - 开源的深度学习语音识别引擎

Project DeepSpeechTensorFlow开源语音识别机器学习Github开源项目

DeepSpeech是一个开源语音转文字引擎，基于百度的Deep Speech研究，并利用Google TensorFlow实现。提供详细的安装、使用和训练模型文档。最新版本及预训练模型可在GitHub获取，支持和贡献指南请参阅相应文件。

Deepgram Aura:最强的文本转语音模型，人工智能客服时代真的来了

2024年08月03日

STT: 离线语音识别转文字工具

3 个月前

PaddleSpeech:百度飞桨开源的功能强大的语音处理工具包

3 个月前

Leon: 开源个人助理的未来

3 个月前

DeepSpeech:开源嵌入式语音识别引擎

3 个月前

Vosk-API: 开源离线语音识别工具包

3 个月前

wav2letter++: Facebook AI Research的自动语音识别工具包

3 个月前

FunClip: 开源、精准、易用的视频语音识别与剪辑工具

3 个月前

开源AI客服，100人的客服团队未来只需1人

2024年08月02日

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com