#语音识别

SpeakStruct - 将语音智能转换为自定义结构化格式的平台
AI工具语音转换结构化数据自定义模板语音识别多行业应用
SpeakStruct是一个语音转换平台,可将语音输入转化为结构化格式。该工具支持自定义模板,提供高精度转录和多渠道捕捉功能。适用于销售、客户支持、产品开发等多个领域,可生成格式化文档、报告和JSON数据。SpeakStruct旨在提高工作效率,满足专业人士、企业和开发者的多样化需求。
Dola - AI驱动的日历管理工具 轻松安排个人及团队日程
AI工具DolaAI日历助手日程管理智能调度语音识别
Dola是一款基于AI技术的日历管理工具,能通过对话方式处理个人和团队日程。它支持语音、文字、图片等多种输入方式,可将复杂信息转化为日程安排。Dola与Google日历和Apple日历兼容,用户无需下载额外应用即可使用。除日程管理外,Dola还集成了天气预报和网络搜索等实用功能,为用户提供全方位的日程管理体验。
Blahget - 智能语音记账应用 轻松管理个人财务
AI工具BlahgetAI语音财务管理语音识别支出追踪
Blahget是一款创新的智能语音记账应用,通过AI技术简化财务管理流程。该应用支持语音输入记录收支、自动分类交易,并提供语音控制的数据管理功能。用户可通过语音查询财务信息,实现高效个人理财。Blahget还具备日记功能、记忆用户偏好和关键词激活等特性,为用户带来全新的智能记账体验。Blahget现已在App Store上线,为iOS用户带来便捷的智能记账体验。
LangoPal - 智能个性化语言学习平台
AI工具LangoPal语言学习AI聊天机器人实时纠错语音识别
LangoPal是新一代智能语言学习平台,提供实时文本纠错、多语言翻译和语音识别等功能。学习者可与多种角色对话,获得语法点评和个性化练习,加速语言掌握过程。该平台适用于学生和专业人士,有助于提升日常交流技能和自信。LangoPal设有免费和高级订阅计划,满足不同需求。
MyGPT - 直观高效的个性化AI聊天机器人创建平台
AI工具MyGPT人工智能对话语音识别个性化机器人开源工具
MyGPT是一个功能强大的AI聊天机器人创建平台,让用户轻松定制个性化AI助手。平台支持GPT-4和Claude等多种AI模型,提供直观的Telegram界面,集成先进的语音识别和神经网络文本转语音技术。灵活的API允许在多种设备和场景中使用自定义机器人。MyGPT专注于提升响应速度和用户体验,简化AI助手的创建过程。作为开源平台,MyGPT还提供灵活的定价策略,适合各类用户需求。
Paxo - 实时生成简洁高效的智能会议笔记应用
AI工具PaxoAI会议记录语音识别隐私保护移动应用
Paxo是一款面向现实场景的智能会议记录应用。它可快速生成清晰、简洁的会议笔记,专为面对面交流设计。主要功能包括自动记录、说话者识别和隐私保护。应用支持多设备同步、数据导入导出,以及笔记组织和搜索。Paxo持续优化功能,旨在提升会议效率和沟通质量。
TranscribeThis.io - 快速精准的智能音频转录工具
AI工具AI音频转录语音识别多语言支持隐私保护转录服务
TranscribeThis.io提供高效准确的音频转录服务,支持60多种语言,适用于会议、播客和讲座等场景。其智能技术可实现近人工质量的转录和自动说话者识别,比人工转录节省99%成本。该工具注重用户隐私,操作简便,是音频转文字需求的优质选择。
teachr - 智能化在线课程创作与销售一体化平台
AI工具在线课程创建AI辅助教学3D可视化语音识别课程管理
teachr平台集成先进AI技术,支持快速创建和全球销售高质量多语言在线课程。自动生成内容、3D可视化、AR技术、语音识别和智能配音等功能大幅提升学习互动性和沉浸感。一站式课程管理、丰富媒体资源和便捷支付系统助力教育者高效运营,轻松实现知识变现。作为革新性在线教育解决方案,teachr让您成为成功的全球课程创作者。
Simple Phones - 智能电话代理服务 全天候接听客户来电
AI工具AI电话代理客户服务语音识别自动化Simple Phones
Simple Phones提供智能电话代理服务,24小时接听来电。企业可选择转接未接来电或使用新号码。支持多语言和口音,可根据业务需求定制,如安排预约、回答问题和收集信息。系统管理入站呼叫,执行外呼任务,并生成详细通话记录。这一解决方案有助于提高客户服务质量和资源利用效率。
Interpre-X - 多语言实时翻译工具 跨越沟通界限
AI工具AI翻译实时口译语音识别多语言支持Interpre-X
Interpre-X提供实时语音翻译服务,支持10多种语言间的互译。该工具集成了语音到语音、语音到文本、文本到语音和文本到文本的功能,无需额外设备即可使用。通过先进技术,Interpre-X实现了高质量的机器翻译和自然语音输出。无论是社交场合还是专业环境,用户都可以轻松克服语言障碍。作为全天候可用的网页应用,Interpre-X以其一致性、易用性和经济性,成为一个高效便捷的翻译解决方案。
Meet Summary - 智能会议摘要和行动项目生成工具
AI工具会议摘要AI语音识别自动化企业协作
Meet Summary是一款智能会议助手,能自动生成准确的会议摘要和行动项目。这个工具让参会者可以专注于交流,无需分心记笔记。它支持多种会议平台,操作简单,有助于团队成员及时了解会议关键信息。Meet Summary为企业提供了高效的会议管理方案,提升团队协作效率。
esp-sr - 集成唤醒词检测和语音命令识别的语音处理方案
ESP-SR语音识别唤醒词引擎语音命令识别音频前端处理Github开源项目
ESP-SR是一款针对ESP32和ESP32-S3芯片优化的智能语音识别框架。它集成了音频前端处理、WakeNet唤醒词检测、MultiNet语音命令识别和语音合成等功能模块。该框架支持自定义唤醒词和300多个中英文语音命令,提供高性能、低内存占用的离线语音处理方案。ESP-SR的双麦克风音频前端已获得亚马逊Alexa内置设备认证,可用于构建各类智能语音应用。
distil-whisper - 快速高效的音频转录模型
Distil-Whisper语音识别模型压缩自然语言处理机器学习Github开源项目
Distil-Whisper是OpenAI Whisper模型的蒸馏版本,速度提升6倍,模型规模缩小49%,同时保持了相近的准确性。该项目支持短语音和长语音转录,提供多个针对英语语音识别的高效模型。Distil-Whisper还可作为Whisper的辅助模型实现推测解码,在保证输出一致性的同时将速度提升2倍。
ollama-voice - 离线语音交互AI助手 集成语音识别对话和合成功能
ollama-voice语音识别大型语言模型文字转语音离线模式Github开源项目
ollama-voice是一个集成Whisper语音识别、Ollama大语言模型和pyttsx3文本转语音技术的开源项目。它创建了一个完全离线的语音交互AI助手,支持本地语音识别、自然语言处理和语音合成。用户通过按住空格键即可与AI对话,适用于需要隐私保护或离线环境的语音交互场景。
ai-audio-startups - AI音频技术革新 音乐制作与语音处理新纪元
AI音频音乐生成语音识别音频分析声音检测Github开源项目
本项目收录了众多专注AI音频和音乐技术的创新企业,涉及音乐创作、制作、源分离、分析推荐、广播、播客、听力辅助、声音检测和语音技术等多个领域。这些初创公司运用人工智能,为音频内容创作者、音乐爱好者和专业人士开发先进工具和解决方案,推动音频技术不断进步。
ICASSP-2023-24-Papers - ICASSP 2024声学和信号处理前沿研究汇总
ICASSP 2024论文集信号处理语音识别人工智能Github开源项目
本项目汇总ICASSP 2024会议发表的声学、语音和信号处理领域重要论文。提供论文标题、作者、摘要及代码链接(如有)的完整列表,便于研究人员快速了解行业前沿动态。资源库持续更新,确保收录最新研究成果。
pyannote-whisper - 整合Whisper和pyannote.audio的语音识别与说话人分割工具
pyannote-whisper语音识别说话人分类数字化转型采购流程Github开源项目
pyannote-whisper整合了Whisper的自动语音识别和pyannote.audio的说话人分割功能。该工具提供命令行和Python接口,支持多种音频格式的转录和分析。它能生成带时间戳和说话人标识的文本,适用于会议记录和多人访谈分析。pyannote-whisper还可与ChatGPT集成,实现会议总结和观点提取,为语音内容分析提供完整解决方案。
MASR - 基于Pytorch的开源自动语音识别框架
语音识别MASRPytorch流式识别预训练模型Github开源项目
MASR是基于Pytorch开发的自动语音识别框架,支持流式和非流式识别。框架集成了多种模型,如deepspeech2、conformer等,可用于短语音和长语音识别。MASR具备集束搜索和贪心解码功能,提供预训练模型,支持多设备部署。项目设计简洁实用,支持中英文识别,并配有完整文档。
PPASR - 基于PaddlePaddle的开源流式与非流式语音识别框架
语音识别PaddlePaddlePPASR流式识别深度学习Github开源项目
PPASR是一个开源的中文语音识别框架,基于PaddlePaddle深度学习平台开发。该框架支持流式和非流式识别,集成了conformer、deepspeech2等多种先进模型,并提供集束搜索和贪心解码功能。PPASR可部署于服务器和Nvidia Jetson设备,提供预训练模型和详细文档,旨在实现简单实用的语音识别应用。
speech_course - 全面语音处理技术课程,从信号处理到人工智能应用
语音处理数字信号处理语音识别语音合成YSDAGithub开源项目
这门课程全面涵盖语音处理技术,从数字信号处理基础到先进的语音识别和合成方法。内容包括声音活动检测、语音事件识别、关键词检测、语音生物识别等,并延伸至深度学习在语音领域的应用。课程采用讲座、研讨会和实践作业相结合的方式,辅以详细的幻灯片和视频资料,旨在帮助学习者掌握现代语音处理的理论知识和实际技能。
awesome-russian-speech - 全面汇总俄语语音技术资源与开发工具
语音技术俄语语音识别语音合成语音模型Github开源项目
项目整理了俄语语音技术的全面资源,包括识别、合成和转换等领域的数据集、模型和开发工具。内容覆盖从预处理到后处理的各个环节,如重音标注和标点恢复。此外还收录了相关词典、语言学资源和行业历史,为俄语语音技术的研究与开发提供了宝贵参考。
RapidASR - 开源多模型语音识别框架
Rapid ASR语音识别模型转换ONNXRuntime开源项目Github
RapidASR是一个开源语音识别框架,集成多种模型如Paraformer、WeNet和PaddleSpeech。它支持Python和C++接口,兼容Linux、Windows和Mac系统。该项目结合了语音识别、语音活动检测和标点恢复功能,提供完整的语音转文本流程。RapidASR采用ONNXRuntime推理引擎,支持批量处理,性能稳定且持续更新。其核心代码已并入FunASR,具有良好的扩展性和兼容性。项目还提供详细的文档导航,适用于各种语音识别应用场景,便于开发者快速上手和使用。
PaddlePaddle-DeepSpeech - 基于PaddlePaddle的开源中文语音识别系统
DeepSpeech2语音识别PaddlePaddle深度学习端到端ASRGithub开源项目
PaddlePaddle-DeepSpeech是一个基于PaddlePaddle框架的中文语音识别项目。该系统支持自定义数据集训练和多种数据增强方法,适用于多样化场景。项目提供预训练模型,兼容Windows和Linux平台,并支持Nvidia Jetson等开发板推理。系统集成了GUI界面、Web部署和长语音识别功能,为开发者提供完整的语音识别工具链。
vosk-server - 多协议支持的高准确度离线语音识别服务器
语音识别服务器通信协议离线识别Vosk-APIGithub开源项目
vosk-server是一个基于Kaldi和Vosk-API的高准确度离线语音识别服务器。支持MQTT、GRPC、WebRTC和Websocket四种主要通信协议,适用于智能家居、PBX系统以及Web流式语音识别等场景。该服务器可本地部署,也可作为聊天机器人、网站和电话系统的后端。Vosk网站提供详细的文档和使用说明。
Leaderboard - 多语言语音识别基准测试平台 促进ASR系统评估
语音识别基准测试数据集模型评估Github开源项目
SpeechColab ASR leaderboard是一个开源的语音识别基准平台,集成测试集、模型集和标准化评估流程。平台提供多样化测试数据,涵盖广泛ASR场景,支持商业API和开源模型评估。它简化了ASR系统的基准测试、复现和验证过程,方便研究人员和开发者比较不同系统性能。通过统一的评估标准,该平台有助于推动语音识别技术的持续进步。
huggingsound - 基于HuggingFace的语音处理开源工具库
HuggingSound语音识别模型训练自然语言处理HuggingFaceGithub开源项目
HuggingSound是基于HuggingFace工具开发的语音处理工具库。该项目为语音识别、模型微调和评估提供了简洁的接口。适用于Python 3.8+环境,支持pip安装。HuggingSound能够利用预训练CTC模型进行推理,并通过语言模型增强识别准确度。此外,它还包含模型评估和微调功能,便于研究人员根据特定数据集优化模型表现。
deepgram-python-sdk - 整合语音识别和语言AI的开发工具
DeepgramPython SDK语音识别API人工智能Github开源项目
Deepgram Python SDK是一个官方开发工具,为开发者提供了集成语音识别和语言AI模型的简洁接口。这个SDK支持预录音频转写、实时音频流处理和文本分析等功能,并包含完整的管理API。它设计简洁,既隐藏了复杂细节,又保持了灵活性,适用于多种应用场景。该工具简化了语音和语言AI技术的集成过程,使开发者能够更容易地利用这些先进技术。
NeuralBlock - 智能识别YouTube视频赞助内容的神经网络工具
NeuralBlockYouTube赞助检测神经网络语音识别机器学习Github开源项目
NeuralBlock是一个开源的神经网络项目,致力于自动识别YouTube视频中的赞助内容。它能够判断整段文本或单个词是否属于赞助部分,为用户提供精准的视频内容分析。该项目基于大规模众包数据训练,采用先进的深度学习技术,并提供便捷的Web应用界面。NeuralBlock不仅提高了视频观看体验,还为内容创作者和广告主提供了有价值的数据洞察。未来,项目将进一步提升识别准确度,整合视频图像信息,并扩展多语言支持,为全球用户提供更全面的服务。
Hey-Jetson - 面向边缘计算的实时语音识别平台
语音识别深度学习Jetson神经网络TensorFlowGithub开源项目
Hey-Jetson项目旨在为边缘计算设备提供高效的语音识别解决方案。该平台利用深度学习技术,整合了膨胀卷积、双向GRU和注意力机制等先进方法,在LibriSpeech数据集上进行训练。经测试,模型在测试集上达到78%的余弦相似度和18%的词错误率,展现出良好的识别性能。此外,项目还提供了基于Flask的API接口,方便在Nvidia Jetson等嵌入式设备上进行实时语音识别推理。
UEAzSpeech - 虚幻引擎整合Azure语音服务的开源插件
Unreal Engine插件Azure语音识别语音合成Github开源项目
UEAzSpeech是一个开源的虚幻引擎插件,通过异步任务将Azure语音认知服务整合到引擎中。插件提供语音识别和合成功能,还包含一个可在引擎中直接生成USoundWave音频的编辑器工具。支持多种语言,并提供详细文档和示例项目,适用于需要在虚幻引擎项目中实现语音交互功能的开发者。
multi_token - 将多模态嵌入到大语言模型的开源框架
multi_token多模态嵌入大语言模型图像识别语音识别Github开源项目
multi_token是一个开源项目,旨在扩展大语言模型的多模态处理能力。该框架支持将图像、音频、文档和视频等多种模态编码为统一格式,并嵌入到单个模型中。它提供了简便的实现方法,使开发者能够轻松构建支持长文档、图像、音频和视频等多模态输入的语言模型。
drachtio-freeswitch-modules - 增强实时通信应用的开源FreeSWITCH模块集
Freeswitch模块drachtio音频处理语音识别开源项目Github
drachtio-freeswitch-modules是一个为drachtio应用设计的开源FreeSWITCH模块集。包含音频流转发、Google语音转文本、Dialogflow集成等模块,能够增强实时通信应用的功能。虽然项目不再积极维护,但对于需要高级音频处理和语音交互的FreeSWITCH应用开发者来说,仍是valuable参考资源。项目兼容性强,支持FreeSWITCH 1.8版本。
speech_recognition - Python多引擎语音识别库
SpeechRecognition语音识别Python库API支持音频处理Github开源项目
SpeechRecognition是一个Python语音识别库,支持CMU Sphinx、Google Speech等多个引擎。它提供麦克风输入、音频文件转录等功能,可进行离线和在线识别。该库安装简单,适用于各类语音识别应用开发。
SALMONN - 通用听觉能力赋能大语言模型 实现音频输入的多模态理解
SALMONN大语言模型语音识别音频处理人工智能Github开源项目
SALMONN是清华大学和字节跳动共同开发的大语言模型,能处理语音、音频和音乐输入。通过结合Whisper和BEATs编码器,SALMONN实现了多语言语音识别、翻译和音频-语音推理等功能。该模型可理解多种音频输入并执行文本和语音指令,展现了跨模态能力,推动了具听觉能力的人工智能发展。
AI Phone - 跨语言即时翻译和转录的电话应用
AI工具AI Phone实时翻译语音识别电话记录跨语言通话
此电话应用提供实时翻译和转录支持,涵盖100多种语言,帮助克服通话中的语言障碍。具有高精度的翻译和语音识别功能,确保重要信息不遗漏,并提供通话要点总结功能,方便回顾。
clap-htsat-unfused - CLAP音频-文本预训练模型实现零样本音频分类
音频嵌入Huggingface模型多模态学习语音识别CLAPGithub开源项目零样本分类
CLAP是一个基于对比学习的音频-文本预训练模型,利用LAION-Audio-630K数据集进行训练。该模型通过特征融合和关键词增强技术,能够处理不同长度的音频输入,在文本到音频检索、零样本音频分类等任务中表现优异。CLAP在零样本设置下达到了领先水平,可用于零样本音频分类或音频和文本特征提取。