#语音识别

I_am_a_person - 全面AI数字人解决方案
数字人AI绘图语音识别大语言模型语音合成Github开源项目
I_am_a_person是一个综合性AI数字人项目,涵盖形象生成、语音识别、大语言模型和语音合成等多个领域。项目整合了人体姿态估计、换脸技术、AI绘图等先进技术,并探索真人和虚拟数字人驱动技术。通过多种语音和语言模型的应用,该项目旨在实现全方位的AI数字人解决方案。
FunASR - 综合性开源语音识别与处理工具集
FunASR语音识别预训练模型模型部署多任务Github开源项目
FunASR是一个全面的开源语音处理工具集,融合了学术研究和工业应用。它不仅支持语音识别模型的训练和微调,还提供了语音活动检测、标点恢复等多种功能。该项目提供大量预训练模型,便于快速构建高效准确的语音识别服务。FunASR以其广泛的功能、高性能和易部署特性,为语音识别技术的研究和应用提供了强大支持。
VITA - 开源全模态交互语言模型
VITA多模态大语言模型人工智能自然语言处理语音识别Github开源项目
VITA是一款开源全模态语言模型,实现了视频、图像、文本和音频的综合处理。其特点包括全模态理解、无唤醒交互和音频中断交互,显著提高了用户体验。通过创新的状态令牌和双工方案,VITA提升了多模态交互体验。在多项基准测试中,VITA展现出优秀性能,为多模态AI研究和应用开辟了新途径,有望推动相关技术的发展。
ACE - 革命性AI技术套件 为数字人物赋予生命
NVIDIA ACE数字人生成式AI微服务语音识别Github开源项目
NVIDIA ACE是一套用于创建数字人物的AI技术集。它集成了语音识别、文本翻译和语音合成等先进模型和微服务。ACE支持云端和本地灵活部署,适用于游戏NPC和客服助手等场景。该技术注重安全性和一致性,并提供详细文档,助力开发者构建新一代数字人物应用。
Whisper-Finetune - 语音识别模型的高效微调与加速
Whisper语音识别模型微调加速推理中文识别Github开源项目
Whisper-Finetune项目致力于优化OpenAI的Whisper语音识别模型。该项目采用Lora技术进行微调,支持多种数据类型的训练,并通过CTranslate2和GGML实现加速推理。此外,项目提供了跨平台应用和服务器部署方案,为语音识别应用开发提供了全面支持。
whisper-asr-webservice - 基于Whisper的开源语音识别Web服务
Whisper ASR语音识别DockerGPU支持开源项目Github
whisper-asr-webservice是一个开源的语音识别Web服务,基于OpenAI Whisper模型。它支持OpenAI Whisper和Faster Whisper引擎,提供多语言语音识别、翻译和语言识别功能。项目提供Docker镜像,支持CPU和GPU部署。这个服务具有高性能和易用性,适合各种语音识别应用场景。
wordcab-transcribe - 开源语音识别与说话人分离API
Wordcab Transcribe语音识别API音频转录faster-whisperGithub开源项目
Wordcab Transcribe是一个基于FastAPI的开源语音识别API。它使用faster-whisper进行音频转录,自动调谐谱聚类技术实现说话人分离。该项目具有处理速度快、易于部署、支持批量请求等特点,可通过本地开发或Docker部署。API支持音频文件和YouTube视频的转录,适用于商业用途。
talk-llama-fast - 开源AI语音对话系统 支持多语言实时交互及视频生成
talk-llama-fastAI对话语音合成语音识别视频生成Github开源项目
talk-llama-fast是一个开源的AI语音对话系统,支持实时语音识别、自然语言生成和语音合成,可进行多语言交互。系统集成了视频生成功能,能创建与音频同步的唇形动画。采用流式处理和激进VAD等优化技术,实现低延迟响应。提供多种语音命令和中断机制,增强交互体验。适用于开发AI助手、虚拟角色等应用。
ultravox - 实现实时语音交互的多模态大语言模型
Ultravox多模态LLM语音识别实时语音Llama 3Github开源项目
Ultravox 是一个创新的多模态大语言模型,能直接理解文本和语音,无需单独的语音识别步骤。基于 Llama 3 模型,它通过多模态投影器将音频转换为高维空间。Ultravox 的首字响应时间约为 200 毫秒,每秒可生成约 100 个 token,有效支持实时语音交互。目前支持音频输入和文本输出,未来计划增加语音输出功能。
whisper_streaming - 基于Whisper的实时语音转录和翻译开源系统
Whisper实时转录语音识别多语言流式处理Github开源项目
whisper_streaming是基于Whisper模型的实时语音转录和翻译系统。该项目采用本地协议和自适应延迟实现流式转录,在长篇未分段语音测试中实现高质量转录,延迟仅3.3秒。系统提供多种后端选择,支持GPU加速,适用于多语言会议实时转录。项目还提供灵活API,便于开发者集成到不同应用场景。
react-speech-recognition - React语音识别钩子实现实时语音转文本
React语音识别Web Speech API麦克风跨浏览器支持Github开源项目
react-speech-recognition是一个基于Web Speech API的React钩子,能将麦克风捕获的语音实时转换为文本。它支持语音命令、连续监听和多语言识别,提供简单API控制麦克风和访问转录。为实现更广泛的浏览器兼容性,推荐配合语音识别polyfill使用。
Transcribro - 安卓设备本地语音识别键盘
Transcribro语音识别Android隐私保护开源软件Github开源项目
Transcribro是一款安卓语音识别键盘和服务,采用OpenAI Whisper模型和Silero VAD技术。它提供语音输入功能,可作为独立应用或被其他程序调用。所有处理在设备本地进行,确保用户隐私和数据安全。Transcribro支持多种应用场景,为用户提供便捷的语音转文字体验。
whisper-web - 浏览器端实时语音识别技术
Whisper Web语音识别浏览器应用Transformers.jsWebGPUGithub开源项目
Whisper Web是一个基于机器学习的浏览器端语音识别项目。它利用 Transformers.js 技术,在客户端实现实时语音处理,无需服务器支持。该项目提供在线演示和本地部署选项,并正在开发 WebGPU 支持以提高性能。Whisper Web 展示了 Web 技术在语音识别领域的应用潜力,为开发者提供了一个便捷的语音识别解决方案。
WhisperKit - Swift语音识别框架实现Apple设备本地推理
WhisperKit语音识别SwiftApple设备CoreMLGithub开源项目
WhisperKit是一个集成OpenAI Whisper模型和Apple CoreML框架的Swift语音识别包。该框架支持Apple设备上的本地推理,具有自动选择适用模型、自定义模型部署等功能。WhisperKit提供音频转录API和命令行工具,便于开发者使用和测试。作为开源项目,WhisperKit欢迎社区贡献,不断优化其性能和功能。
Qwen2-Audio - 大规模音频语言模型 支持语音交互和音频理解
Qwen2-Audio语音识别语音翻译音频分析多语言支持Github开源项目
Qwen2-Audio是一款先进的音频语言模型,可处理多种音频输入并执行分析或生成文本响应。该模型提供语音交互和音频分析两种功能,在13项基准测试中展现出色性能,包括语音识别、翻译和情感分析等任务。目前已发布Qwen2-Audio-7B和Qwen2-Audio-7B-Instruct两个版本。
whisper-turbo - 基于WebGPU的浏览器端语音转文字引擎
Whisper Turbo跨平台语音识别WebGPU浏览器Github开源项目
Whisper Turbo是一个基于WebGPU技术的开源语音识别项目,专门为浏览器和Electron应用设计。这款跨平台工具能在客户端高效执行语音转文字任务,目前支持Windows和MacOS上的Chromium浏览器。项目提供在线演示和详细文档,其核心由Rust编写的Ratchet库提供支持,确保了卓越的性能表现。
Lingvanex - AI多语言翻译和语音识别技术平台
AI工具Lingvanex机器翻译语音识别人工智能语言技术
Lingvanex提供AI驱动的机器翻译和语音识别技术,支持100多种语言的文本、文档、音频和图像翻译,以及91种语言的语音转录。平台提供云端API、本地部署软件和移动SDK等多种解决方案,注重数据安全,采用固定价格模式。产品易于集成,广泛应用于教育、金融、政府和医疗等行业。
Programming Helper - AI代码生成与编程辅助工具
AI工具正则表达式编程算法数据库语音识别
Programming Helper是一款基于AI的编程辅助工具,能根据文本描述自动生成代码。它具备代码生成、修复和测试等功能,支持多种编程语言,有助于提升开发效率。此工具可将自然语言转化为代码片段,还能分析优化现有代码。无论是编程新手还是专业人士,都能从中受益。
ScriptMe - 多语言音视频转录和字幕生成平台
AI工具ScriptMe转录字幕AI语音识别
ScriptMe是一个高效的音视频转录和字幕生成平台。支持30多种语言的快速转录,可将音频和视频内容转换为文本和字幕。提供编辑、导出和分享功能,支持多种格式。适用于媒体制作、政府机构、教育和研究等领域,提高工作效率,节省时间和成本。界面直观,功能强大,是处理音视频内容的实用工具。
TalkTastic - macOS智能语音输入工具 提升写作效率
AI工具语音输入人工智能macOS应用隐私控制语音识别
TalkTastic是专为macOS设计的智能语音输入工具,支持在任何应用中使用语音输入文字。相比ChatGPT和OpenAI Whisper,TalkTastic提供更高的准确度。该工具集成智能重写、AI转录和隐私控制功能,能理解上下文并模仿用户写作风格。通过结合设备端AI和多模态语言模型,TalkTastic为作家、创意工作者和忙碌人士提供高效的写作辅助。
Audiotype - 高效多语言音视频转文字软件 自动转录准确快速
AI工具语音转文字自动转录软件音频转录视频转录语音识别
Audiotype为专业音视频自动转录软件,支持30多种语言和各类音视频格式。采用AI技术,转录准确率达80-95%,无需注册即可使用。适用于记者、学生、视频制作者等群体,提供字幕生成、文本编辑和分享功能。注重数据隐私,15天后自动删除用户文件,是高效可靠的音视频转文字解决方案。
Felo Subtitles - 实时多语言字幕工具 提高在线交流和视频观看体验
AI工具实时字幕多语言翻译视频会议语音识别YouTube
Felo Subtitles是一款实时多语言字幕工具,适用于会议、在线课程和直播。支持Google Meet、Zoom、MS Teams和YouTube等平台,自动识别语音并实时翻译,保护隐私安全。提供YouTube视频实时双语字幕和字幕下载功能。通过多语言字幕,提高跨语言交流效率,增强在线活动的可访问性。支持20+种语言,翻译延迟低至1秒,让全球用户轻松突破语言障碍。
WhisperTranscribe - 音频转文字与AI内容生成一体化平台
AI工具音频转文字内容生成AI转录语音识别WhisperTranscribe
WhisperTranscribe集成了音频转文字和AI内容生成功能。该工具支持55种以上语言的音频转录,并提供字幕翻译服务。通过AI技术,它能自动生成摘要、章节、社交媒体帖子和博客文章等多样化内容。WhisperTranscribe为播客制作者、视频创作者和营销人员提供一站式内容创作解决方案,有助于提升工作效率和扩大受众范围。
Seasalt.ai - AI全渠道客户交互平台
AI工具Seasalt.ai对话体验平台生成式AI语音识别客户服务
Seasalt.ai是一个集成生成式AI和高精度语音识别技术的对话体验平台。其产品线包括SeaX(消息和通话)、SeaChat(AI聊天)和SeaMeet(会议管理)等。该平台致力于帮助企业全面管理文本和语音对话,适用于营销、销售和客户服务等多个领域,支持多种通信渠道,旨在提升客户关系质量。
Talkatoo - 兽医专用智能语音转录软件 提升诊疗效率
AI工具Talkatoo语音识别兽医AI记录模板
Talkatoo是专为兽医开发的智能语音转录软件,提供三种服务级别:人工校对、AI自动SOAP记录生成和桌面语音转文字。该软件运用先进的语音识别和人工智能技术,帮助兽医大幅节省时间,提升工作效率。Talkatoo适应不同需求,从全自动到完全可控,让兽医能更专注于提供优质的动物医疗服务。
Kardome - 先进语音用户界面技术研发企业
AI工具语音用户界面语音识别人工智能深度学习Kardome
Kardome专注研发语音用户界面技术,提供基于人工智能的语音增强解决方案。其核心技术包括音频前端处理、空间听觉、声纹识别和自定义唤醒词,可显著提高嘈杂环境中的语音识别准确性。这些技术适用于多种智能设备,为制造商和OEM厂商提供全面的语音交互技术支持,旨在简化语音控制体验。
SpeechPulse - 智能语音识别转写与多语言支持系统
AI工具语音识别语音输入实时转录多语言支持隐私保护
SpeechPulse整合了实时语音识别、多语言支持和离线处理功能,为用户提供全面的语音转文字解决方案。系统采用Whisper AI模型,支持自动和手动标点、自动语音输入及按键说话等多种模式。内置AI模板可进行语法校正和文本格式化,同时具备音频文件处理、说话人分离和字幕生成功能。适用于各类应用程序,能够满足日常和专业用户的多样化需求,是一款高效且功能丰富的语音识别工具。
WavoAI - 音频转录与智能分析一体化平台
AI工具WavoAI语音转文字AI分析自动转录语音识别
WavoAI是一款集音频转录和智能分析于一体的平台。该工具利用精准的语音识别技术快速生成文字记录,同时提供说话人识别、注释和AI驱动的内容分析。支持多语言和多种口音,可轻松整合到现有工作流程中。WavoAI适用于学术研究、媒体制作和商业会议等多个领域,为用户提供高质量的转录服务和数据洞察。
Botjet - 对话式AI平台赋能企业智能化升级
AI工具Botjet对话式AI平台自然语言处理语音识别深度学习
Botjet作为全面的对话式AI平台,集成了先进会话引擎、深度学习、语音识别和合成技术。平台支持多行业应用,包括电商、医疗和银行等领域。它简化了聊天机器人的开发过程,使企业能高效构建智能对话系统,实现流程自动化,增强客户互动,促进AI驱动的业务创新。
InspNote - 智能灵感捕捉与多样化内容创作工具
AI工具InspNoteAI辅助创意记录内容生成语音识别
InspNote是一款智能灵感捕捉工具,结合AI技术实现快速记录和内容生成。用户可将想法转化为待办事项、博客文章、推文和电子邮件等多种形式。平台注重隐私保护,不存储音频记录。多种价格套餐适合不同需求,适用于创意工作者、企业家等重视灵感管理的群体。
Muchtodo - 语音驱动的多语言任务管理工具
AI工具语音识别任务管理生产力工具笔记应用多语言支持
Muchtodo是一款基于语音识别的任务管理工具,支持57种语言,可将语音快速转化为项目、任务和笔记。该平台提供语音和手动两种输入方式,注重用户隐私保护,不存储语音数据。Muchtodo旨在提高工作效率,让用户专注于任务完成而非记录。平台提供7天免费试用,用户可体验智能高效的任务管理方式。日历和看板功能即将推出,进一步增强任务管理能力。
Onyxium - 综合AI工具平台提供多样化人工智能应用服务
AI工具Onyxium AI人工智能工具图像识别文本分析语音识别
Onyxium平台整合了多种AI工具,包括文本生成、图像创建、图像识别、文本分析和语音识别等功能。该平台适用于个人和团队,提供工作流程优化、多语言支持和视频集成等特性。用户可根据需求选择免费或付费计划,灵活使用不同级别的AI服务。Onyxium旨在为用户提供便捷的AI技术接入渠道,助力提升效率和拓展应用领域。
Speechforms - 语音识别技术让表单填写变得简单快捷
AI工具语音填表Speechforms语音识别表单填写人工智能
Speechforms是一款利用AI语音识别技术的创新智能表单应用,彻底改变了传统的表单填写方式。用户只需通过语音输入即可完成表单,无需使用键盘,大大提高了效率和便捷性。这种革命性的方法不仅为用户带来了更舒适的体验,还为各行各业的数据收集过程带来了新的可能。从在线调查到客户反馈,Speechforms在多种场景下都能发挥重要作用,标志着表单填写技术的一次重大革新。利用Speechforms,企业和个人都能更轻松地收集和管理信息,开启数据采集的全新时代。
Voxpad - 高效智能的视频音频转笔记解决方案
AI工具笔记生成AI转录语音识别自动化笔记订阅计划
Voxpad是领先的AI笔记工具,专注于视频转文字和音频转笔记。这款创新工具支持多种文件格式,配备时间戳和智能编辑功能,通过AI自动补全技术提升效率。用户可轻松上传、生成和编辑笔记,享受安全的存储环境。Voxpad提供灵活的订阅计划,满足不同预算需求,是提高学习和工作效率的理想AI笔记解决方案。
UniGPT - 整合多种先进AI模型的一站式智能对话平台
AI工具AI助手聊天界面多模态交互语音识别对话管理
UniGPT整合了ChatGPT、Gemini、Claude等多种先进AI模型和20多个插件,提供一站式智能对话服务。平台支持文本和图像生成,具备多语言界面、语音交互、自定义预设和对话分支等功能。用户可以导入导出对话,使用多种支付方式(包括Stripe安全支付、银行卡、Link、Google Pay和支付宝),轻松访问高效AI解决方案。UniGPT致力于提升用户工作效率,为AI应用提供便捷通道,未来还将扩展到音乐和视频生成领域。
DeepSpeech - 开源的深度学习语音识别引擎
Project DeepSpeechTensorFlow开源语音识别机器学习Github开源项目
DeepSpeech是一个开源语音转文字引擎,基于百度的Deep Speech研究,并利用Google TensorFlow实现。提供详细的安装、使用和训练模型文档。最新版本及预训练模型可在GitHub获取,支持和贡献指南请参阅相应文件。