#语音识别

SpeakStruct - 将语音智能转换为自定义结构化格式的平台

AI工具语音转换结构化数据自定义模板语音识别多行业应用

SpeakStruct是一个语音转换平台，可将语音输入转化为结构化格式。该工具支持自定义模板，提供高精度转录和多渠道捕捉功能。适用于销售、客户支持、产品开发等多个领域，可生成格式化文档、报告和JSON数据。SpeakStruct旨在提高工作效率，满足专业人士、企业和开发者的多样化需求。

Dola - AI驱动的日历管理工具轻松安排个人及团队日程

AI工具DolaAI日历助手日程管理智能调度语音识别

Dola是一款基于AI技术的日历管理工具，能通过对话方式处理个人和团队日程。它支持语音、文字、图片等多种输入方式，可将复杂信息转化为日程安排。Dola与Google日历和Apple日历兼容，用户无需下载额外应用即可使用。除日程管理外，Dola还集成了天气预报和网络搜索等实用功能，为用户提供全方位的日程管理体验。

Blahget - 智能语音记账应用轻松管理个人财务

AI工具BlahgetAI语音财务管理语音识别支出追踪

Blahget是一款创新的智能语音记账应用，通过AI技术简化财务管理流程。该应用支持语音输入记录收支、自动分类交易，并提供语音控制的数据管理功能。用户可通过语音查询财务信息，实现高效个人理财。Blahget还具备日记功能、记忆用户偏好和关键词激活等特性，为用户带来全新的智能记账体验。Blahget现已在App Store上线，为iOS用户带来便捷的智能记账体验。

LangoPal - 智能个性化语言学习平台

AI工具LangoPal语言学习AI聊天机器人实时纠错语音识别

LangoPal是新一代智能语言学习平台，提供实时文本纠错、多语言翻译和语音识别等功能。学习者可与多种角色对话，获得语法点评和个性化练习，加速语言掌握过程。该平台适用于学生和专业人士，有助于提升日常交流技能和自信。LangoPal设有免费和高级订阅计划，满足不同需求。

MyGPT - 直观高效的个性化AI聊天机器人创建平台

AI工具MyGPT人工智能对话语音识别个性化机器人开源工具

MyGPT是一个功能强大的AI聊天机器人创建平台，让用户轻松定制个性化AI助手。平台支持GPT-4和Claude等多种AI模型，提供直观的Telegram界面，集成先进的语音识别和神经网络文本转语音技术。灵活的API允许在多种设备和场景中使用自定义机器人。MyGPT专注于提升响应速度和用户体验，简化AI助手的创建过程。作为开源平台，MyGPT还提供灵活的定价策略，适合各类用户需求。

Paxo - 实时生成简洁高效的智能会议笔记应用

AI工具PaxoAI会议记录语音识别隐私保护移动应用

Paxo是一款面向现实场景的智能会议记录应用。它可快速生成清晰、简洁的会议笔记，专为面对面交流设计。主要功能包括自动记录、说话者识别和隐私保护。应用支持多设备同步、数据导入导出，以及笔记组织和搜索。Paxo持续优化功能，旨在提升会议效率和沟通质量。

TranscribeThis.io - 快速精准的智能音频转录工具

AI工具AI音频转录语音识别多语言支持隐私保护转录服务

TranscribeThis.io提供高效准确的音频转录服务，支持60多种语言，适用于会议、播客和讲座等场景。其智能技术可实现近人工质量的转录和自动说话者识别，比人工转录节省99%成本。该工具注重用户隐私，操作简便，是音频转文字需求的优质选择。

teachr - 智能化在线课程创作与销售一体化平台

AI工具在线课程创建AI辅助教学3D可视化语音识别课程管理

teachr平台集成先进AI技术，支持快速创建和全球销售高质量多语言在线课程。自动生成内容、3D可视化、AR技术、语音识别和智能配音等功能大幅提升学习互动性和沉浸感。一站式课程管理、丰富媒体资源和便捷支付系统助力教育者高效运营，轻松实现知识变现。作为革新性在线教育解决方案，teachr让您成为成功的全球课程创作者。

Simple Phones - 智能电话代理服务全天候接听客户来电

AI工具AI电话代理客户服务语音识别自动化Simple Phones

Simple Phones提供智能电话代理服务，24小时接听来电。企业可选择转接未接来电或使用新号码。支持多语言和口音，可根据业务需求定制，如安排预约、回答问题和收集信息。系统管理入站呼叫，执行外呼任务，并生成详细通话记录。这一解决方案有助于提高客户服务质量和资源利用效率。

Interpre-X - 多语言实时翻译工具跨越沟通界限

AI工具AI翻译实时口译语音识别多语言支持Interpre-X

Interpre-X提供实时语音翻译服务，支持10多种语言间的互译。该工具集成了语音到语音、语音到文本、文本到语音和文本到文本的功能，无需额外设备即可使用。通过先进技术，Interpre-X实现了高质量的机器翻译和自然语音输出。无论是社交场合还是专业环境，用户都可以轻松克服语言障碍。作为全天候可用的网页应用，Interpre-X以其一致性、易用性和经济性，成为一个高效便捷的翻译解决方案。

Meet Summary - 智能会议摘要和行动项目生成工具

AI工具会议摘要AI语音识别自动化企业协作

Meet Summary是一款智能会议助手，能自动生成准确的会议摘要和行动项目。这个工具让参会者可以专注于交流，无需分心记笔记。它支持多种会议平台，操作简单，有助于团队成员及时了解会议关键信息。Meet Summary为企业提供了高效的会议管理方案，提升团队协作效率。

esp-sr - 集成唤醒词检测和语音命令识别的语音处理方案

ESP-SR语音识别唤醒词引擎语音命令识别音频前端处理Github开源项目

ESP-SR是一款针对ESP32和ESP32-S3芯片优化的智能语音识别框架。它集成了音频前端处理、WakeNet唤醒词检测、MultiNet语音命令识别和语音合成等功能模块。该框架支持自定义唤醒词和300多个中英文语音命令，提供高性能、低内存占用的离线语音处理方案。ESP-SR的双麦克风音频前端已获得亚马逊Alexa内置设备认证，可用于构建各类智能语音应用。

distil-whisper - 快速高效的音频转录模型

Distil-Whisper语音识别模型压缩自然语言处理机器学习Github开源项目

Distil-Whisper是OpenAI Whisper模型的蒸馏版本，速度提升6倍，模型规模缩小49%，同时保持了相近的准确性。该项目支持短语音和长语音转录，提供多个针对英语语音识别的高效模型。Distil-Whisper还可作为Whisper的辅助模型实现推测解码，在保证输出一致性的同时将速度提升2倍。

ollama-voice - 离线语音交互AI助手集成语音识别对话和合成功能

ollama-voice语音识别大型语言模型文字转语音离线模式Github开源项目

ollama-voice是一个集成Whisper语音识别、Ollama大语言模型和pyttsx3文本转语音技术的开源项目。它创建了一个完全离线的语音交互AI助手，支持本地语音识别、自然语言处理和语音合成。用户通过按住空格键即可与AI对话，适用于需要隐私保护或离线环境的语音交互场景。

ai-audio-startups - AI音频技术革新音乐制作与语音处理新纪元

AI音频音乐生成语音识别音频分析声音检测Github开源项目

本项目收录了众多专注AI音频和音乐技术的创新企业，涉及音乐创作、制作、源分离、分析推荐、广播、播客、听力辅助、声音检测和语音技术等多个领域。这些初创公司运用人工智能，为音频内容创作者、音乐爱好者和专业人士开发先进工具和解决方案，推动音频技术不断进步。

ICASSP-2023-24-Papers - ICASSP 2024声学和信号处理前沿研究汇总

ICASSP 2024论文集信号处理语音识别人工智能Github开源项目

本项目汇总ICASSP 2024会议发表的声学、语音和信号处理领域重要论文。提供论文标题、作者、摘要及代码链接(如有)的完整列表,便于研究人员快速了解行业前沿动态。资源库持续更新,确保收录最新研究成果。

pyannote-whisper - 整合Whisper和pyannote.audio的语音识别与说话人分割工具

pyannote-whisper语音识别说话人分类数字化转型采购流程Github开源项目

pyannote-whisper整合了Whisper的自动语音识别和pyannote.audio的说话人分割功能。该工具提供命令行和Python接口，支持多种音频格式的转录和分析。它能生成带时间戳和说话人标识的文本，适用于会议记录和多人访谈分析。pyannote-whisper还可与ChatGPT集成，实现会议总结和观点提取，为语音内容分析提供完整解决方案。

MASR - 基于Pytorch的开源自动语音识别框架

语音识别MASRPytorch流式识别预训练模型Github开源项目

MASR是基于Pytorch开发的自动语音识别框架，支持流式和非流式识别。框架集成了多种模型，如deepspeech2、conformer等，可用于短语音和长语音识别。MASR具备集束搜索和贪心解码功能，提供预训练模型，支持多设备部署。项目设计简洁实用，支持中英文识别，并配有完整文档。

PPASR - 基于PaddlePaddle的开源流式与非流式语音识别框架

语音识别PaddlePaddlePPASR流式识别深度学习Github开源项目

PPASR是一个开源的中文语音识别框架，基于PaddlePaddle深度学习平台开发。该框架支持流式和非流式识别，集成了conformer、deepspeech2等多种先进模型，并提供集束搜索和贪心解码功能。PPASR可部署于服务器和Nvidia Jetson设备，提供预训练模型和详细文档，旨在实现简单实用的语音识别应用。

speech_course - 全面语音处理技术课程，从信号处理到人工智能应用

语音处理数字信号处理语音识别语音合成YSDAGithub开源项目

这门课程全面涵盖语音处理技术，从数字信号处理基础到先进的语音识别和合成方法。内容包括声音活动检测、语音事件识别、关键词检测、语音生物识别等，并延伸至深度学习在语音领域的应用。课程采用讲座、研讨会和实践作业相结合的方式，辅以详细的幻灯片和视频资料，旨在帮助学习者掌握现代语音处理的理论知识和实际技能。

awesome-russian-speech - 全面汇总俄语语音技术资源与开发工具

语音技术俄语语音识别语音合成语音模型Github开源项目

项目整理了俄语语音技术的全面资源，包括识别、合成和转换等领域的数据集、模型和开发工具。内容覆盖从预处理到后处理的各个环节，如重音标注和标点恢复。此外还收录了相关词典、语言学资源和行业历史，为俄语语音技术的研究与开发提供了宝贵参考。

RapidASR - 开源多模型语音识别框架

Rapid ASR语音识别模型转换ONNXRuntime开源项目Github

RapidASR是一个开源语音识别框架，集成多种模型如Paraformer、WeNet和PaddleSpeech。它支持Python和C++接口，兼容Linux、Windows和Mac系统。该项目结合了语音识别、语音活动检测和标点恢复功能，提供完整的语音转文本流程。RapidASR采用ONNXRuntime推理引擎，支持批量处理，性能稳定且持续更新。其核心代码已并入FunASR，具有良好的扩展性和兼容性。项目还提供详细的文档导航，适用于各种语音识别应用场景，便于开发者快速上手和使用。

PaddlePaddle-DeepSpeech - 基于PaddlePaddle的开源中文语音识别系统

DeepSpeech2语音识别PaddlePaddle深度学习端到端ASRGithub开源项目

PaddlePaddle-DeepSpeech是一个基于PaddlePaddle框架的中文语音识别项目。该系统支持自定义数据集训练和多种数据增强方法，适用于多样化场景。项目提供预训练模型，兼容Windows和Linux平台，并支持Nvidia Jetson等开发板推理。系统集成了GUI界面、Web部署和长语音识别功能，为开发者提供完整的语音识别工具链。

vosk-server - 多协议支持的高准确度离线语音识别服务器

语音识别服务器通信协议离线识别Vosk-APIGithub开源项目

vosk-server是一个基于Kaldi和Vosk-API的高准确度离线语音识别服务器。支持MQTT、GRPC、WebRTC和Websocket四种主要通信协议，适用于智能家居、PBX系统以及Web流式语音识别等场景。该服务器可本地部署，也可作为聊天机器人、网站和电话系统的后端。Vosk网站提供详细的文档和使用说明。

Leaderboard - 多语言语音识别基准测试平台促进ASR系统评估

语音识别基准测试数据集模型评估Github开源项目

SpeechColab ASR leaderboard是一个开源的语音识别基准平台，集成测试集、模型集和标准化评估流程。平台提供多样化测试数据，涵盖广泛ASR场景，支持商业API和开源模型评估。它简化了ASR系统的基准测试、复现和验证过程，方便研究人员和开发者比较不同系统性能。通过统一的评估标准，该平台有助于推动语音识别技术的持续进步。

huggingsound - 基于HuggingFace的语音处理开源工具库

HuggingSound语音识别模型训练自然语言处理HuggingFaceGithub开源项目

HuggingSound是基于HuggingFace工具开发的语音处理工具库。该项目为语音识别、模型微调和评估提供了简洁的接口。适用于Python 3.8+环境，支持pip安装。HuggingSound能够利用预训练CTC模型进行推理，并通过语言模型增强识别准确度。此外，它还包含模型评估和微调功能，便于研究人员根据特定数据集优化模型表现。

deepgram-python-sdk - 整合语音识别和语言AI的开发工具

DeepgramPython SDK语音识别API人工智能Github开源项目

Deepgram Python SDK是一个官方开发工具，为开发者提供了集成语音识别和语言AI模型的简洁接口。这个SDK支持预录音频转写、实时音频流处理和文本分析等功能，并包含完整的管理API。它设计简洁，既隐藏了复杂细节，又保持了灵活性，适用于多种应用场景。该工具简化了语音和语言AI技术的集成过程，使开发者能够更容易地利用这些先进技术。

NeuralBlock - 智能识别YouTube视频赞助内容的神经网络工具

NeuralBlockYouTube赞助检测神经网络语音识别机器学习Github开源项目

NeuralBlock是一个开源的神经网络项目，致力于自动识别YouTube视频中的赞助内容。它能够判断整段文本或单个词是否属于赞助部分，为用户提供精准的视频内容分析。该项目基于大规模众包数据训练，采用先进的深度学习技术，并提供便捷的Web应用界面。NeuralBlock不仅提高了视频观看体验，还为内容创作者和广告主提供了有价值的数据洞察。未来，项目将进一步提升识别准确度，整合视频图像信息，并扩展多语言支持，为全球用户提供更全面的服务。

Hey-Jetson - 面向边缘计算的实时语音识别平台

语音识别深度学习Jetson神经网络TensorFlowGithub开源项目

Hey-Jetson项目旨在为边缘计算设备提供高效的语音识别解决方案。该平台利用深度学习技术，整合了膨胀卷积、双向GRU和注意力机制等先进方法，在LibriSpeech数据集上进行训练。经测试，模型在测试集上达到78%的余弦相似度和18%的词错误率，展现出良好的识别性能。此外，项目还提供了基于Flask的API接口，方便在Nvidia Jetson等嵌入式设备上进行实时语音识别推理。

UEAzSpeech - 虚幻引擎整合Azure语音服务的开源插件

Unreal Engine插件Azure语音识别语音合成Github开源项目

UEAzSpeech是一个开源的虚幻引擎插件，通过异步任务将Azure语音认知服务整合到引擎中。插件提供语音识别和合成功能，还包含一个可在引擎中直接生成USoundWave音频的编辑器工具。支持多种语言，并提供详细文档和示例项目，适用于需要在虚幻引擎项目中实现语音交互功能的开发者。

multi_token - 将多模态嵌入到大语言模型的开源框架

multi_token多模态嵌入大语言模型图像识别语音识别Github开源项目

multi_token是一个开源项目，旨在扩展大语言模型的多模态处理能力。该框架支持将图像、音频、文档和视频等多种模态编码为统一格式，并嵌入到单个模型中。它提供了简便的实现方法，使开发者能够轻松构建支持长文档、图像、音频和视频等多模态输入的语言模型。

drachtio-freeswitch-modules - 增强实时通信应用的开源FreeSWITCH模块集

Freeswitch模块drachtio音频处理语音识别开源项目Github

drachtio-freeswitch-modules是一个为drachtio应用设计的开源FreeSWITCH模块集。包含音频流转发、Google语音转文本、Dialogflow集成等模块，能够增强实时通信应用的功能。虽然项目不再积极维护，但对于需要高级音频处理和语音交互的FreeSWITCH应用开发者来说，仍是valuable参考资源。项目兼容性强，支持FreeSWITCH 1.8版本。

speech_recognition - Python多引擎语音识别库

SpeechRecognition语音识别Python库API支持音频处理Github开源项目

SpeechRecognition是一个Python语音识别库，支持CMU Sphinx、Google Speech等多个引擎。它提供麦克风输入、音频文件转录等功能，可进行离线和在线识别。该库安装简单，适用于各类语音识别应用开发。

SALMONN - 通用听觉能力赋能大语言模型实现音频输入的多模态理解

SALMONN大语言模型语音识别音频处理人工智能Github开源项目

SALMONN是清华大学和字节跳动共同开发的大语言模型，能处理语音、音频和音乐输入。通过结合Whisper和BEATs编码器，SALMONN实现了多语言语音识别、翻译和音频-语音推理等功能。该模型可理解多种音频输入并执行文本和语音指令，展现了跨模态能力，推动了具听觉能力的人工智能发展。

AI Phone - 跨语言即时翻译和转录的电话应用

AI工具AI Phone实时翻译语音识别电话记录跨语言通话

此电话应用提供实时翻译和转录支持，涵盖100多种语言，帮助克服通话中的语言障碍。具有高精度的翻译和语音识别功能，确保重要信息不遗漏，并提供通话要点总结功能，方便回顾。

clap-htsat-unfused - CLAP音频-文本预训练模型实现零样本音频分类

音频嵌入Huggingface模型多模态学习语音识别CLAPGithub开源项目零样本分类

CLAP是一个基于对比学习的音频-文本预训练模型,利用LAION-Audio-630K数据集进行训练。该模型通过特征融合和关键词增强技术,能够处理不同长度的音频输入,在文本到音频检索、零样本音频分类等任务中表现优异。CLAP在零样本设置下达到了领先水平,可用于零样本音频分类或音频和文本特征提取。

相关文章

Article Cover

StreamSpeech入门学习资料 - "全能"语音识别、翻译与合成模型

Article Cover

awesome-audio-plaza学习资料汇总 - 音频AI技术论文和资源追踪项目

Article Cover

mrcp-plugin-with-freeswitch资源学习总结 - FreeSWITCH与UniMRCP Server集成讯飞语音服务入门指南

Article Cover

speech-recognition-uk学习资料汇总 - 乌克兰语语音识别与合成项目

Article Cover

TTS-Voice-Wizard 学习资料汇总 - 免费开源的语音转文字和文字转语音应用

Article Cover

awesome-speech-recognition-speech-synthesis-papers学习资料汇总 - 语音识别与合成领域顶级论文集锦

Article Cover

LangHelper入门学习资料 - 基于ChatGPT和AI模型的强大语言学习应用

Article Cover

dsnote 学习资料汇总 - 离线语音识别、文本转语音和机器翻译工具

Article Cover

Android Speech使用指南 - 简化语音识别与文字转语音

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com

@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号