Hey-Jetson

面向边缘计算的实时语音识别平台

语音识别深度学习 Jetson 神经网络 TensorFlow Github 开源项目

Hey-Jetson项目旨在为边缘计算设备提供高效的语音识别解决方案。该平台利用深度学习技术，整合了膨胀卷积、双向GRU和注意力机制等先进方法，在LibriSpeech数据集上进行训练。经测试，模型在测试集上达到78%的余弦相似度和18%的词错误率，展现出良好的识别性能。此外，项目还提供了基于Flask的API接口，方便在Nvidia Jetson等嵌入式设备上进行实时语音识别推理。

访问官网

Github

介绍相关项目

whisper-asr-webservice - 基于Whisper的开源语音识别Web服务

DockerGPU支持GithubWhisper ASR开源项目语音识别

whisper-asr-webservice是一个开源的语音识别Web服务，基于OpenAI Whisper模型。它支持OpenAI Whisper和Faster Whisper引擎，提供多语言语音识别、翻译和语言识别功能。项目提供Docker镜像，支持CPU和GPU部署。这个服务具有高性能和易用性，适合各种语音识别应用场景。

J.A.R.V.I.S - 开源智能语音助手实现多功能自动化

GithubJ.A.R.V.I.SPython项目人工智能开源软件开源项目语音助手

J.A.R.V.I.S是一个开源的智能语音助手项目，集成了多项实用功能。它支持动态人脸识别认证、邮件发送、新闻播报和待办事项管理等。该项目还能执行网站访问、音乐播放、天气查询和YouTube搜索等任务。J.A.R.V.I.S通过语音交互方式，为用户提供信息获取和设备控制服务，旨在提升日常生活和工作效率。该项目基于Python开发，整合了多个功能模块。除基本的语音交互外，J.A.R.V.I.S还实现了人脸识别、邮件处理、新闻API集成等高级功能。系统可执行网页浏览、音乐控制、天气报告等日常任务，并支持YouTube视频搜索和下载。J.A.R.V.I.S项目展示了如何利用开源技术构建复杂的智能助手系统。

VoiceFlow-TTS - 结合最新流匹配算法的文本转语音技术

GithubKaldiVoiceFlow开源项目数据准备文本转语音模型训练

VoiceFlow-TTS项目采用先进的矫正流匹配技术，提升了文本到语音转换的效率和自然度。此项目详细介绍了设置环境、准备数据、训练模型以及推理过程，支持多GPU并发处理，兼容多种数据集。

AudioGPT - 多功能音频生成与理解平台，支持语音、音乐、音效及虚拟人对话

AudioGPTGithub开源项目语音增强语音识别音乐生成音频合成

AudioGPT 是一个多功能音频生成与理解平台，具备语音合成、语音识别、语音分离、风格迁移、声音检测、声音提取、文本到音频转换等功能，还支持音乐生成与虚拟人对话。集成了 FastSpeech、whisper、GeneFace 等多个领先的基础模型，AudioGPT 为开发者提供强大的开源工具和预训练模型，支持多种音频相关任务，不断扩展其功能和应用场景。此平台适合音频处理、自然语言处理及多模态研究的需求。

huggingsound - 基于HuggingFace的语音处理开源工具库

GithubHuggingFaceHuggingSound开源项目模型训练自然语言处理语音识别

HuggingSound是基于HuggingFace工具开发的语音处理工具库。该项目为语音识别、模型微调和评估提供了简洁的接口。适用于Python 3.8+环境，支持pip安装。HuggingSound能够利用预训练CTC模型进行推理，并通过语言模型增强识别准确度。此外，它还包含模型评估和微调功能，便于研究人员根据特定数据集优化模型表现。

CosyVoice - 提升智能语音体验的创新技术和多语言支持

CosyVoiceGithub在线演示多语言支持开源项目语音模型跨语言推理

CosyVoice是一个先进的多语言语音生成技术，致力于提升语音交互的流畅性和实时反馈。该项目支持广泛的语言，提供灵活的下载和安装选项，包括跨语言和指令式语音合成，满足不同用户需求。通过预训练模型和定制选项，用户可以实现从简短语句到完整语音输出的自然转换，优化整体交互体验。

F5-TTS - 提高训练和推理速度的先进文本到语音转换系统

E2 TTSF5-TTSGithub开源项目推理数据集训练

项目F5-TTS利用Diffusion Transformer和ConvNeXt V2技术，显著提升了训练和推理速度。支持生成最长30秒的音频，并通过Sway Sampling技术优化推理性能。用户可以自定义数据集，并使用多GPU和fp16配置加速训练。提供单次推理、语音编辑和批量推理功能，并支持通过Gradio App进行操作。多种测试数据集和评估工具确保模型表现稳定高效。

Cognitive-Speech-TTS - 高效文本转语音解决方案，支持个性化声音定制

Azure AIAzure Cognitive ServicesGithubMicrosoftSpeech SDKText-to-Speech开源项目

Azure Cognitive Service的TTS技术支持高效的文本转语音转换，提供多语言、多情感和个性化声音定制。通过REST API和Speech SDK集成，提供跨平台解决方案，应用广泛，包括教育、媒体、娱乐和医疗等领域。最新更新及客户案例展示了Azure AI推动的创新及优质用户体验。

whisper-jax - 速度提升70倍的Whisper JAX音频转录与翻译解决方案

GithubWhisper JAX并行处理开源项目性能模型音频转录

Whisper JAX是基于Hugging Face Transformers实现的音频转录与翻译模型，通过JAX代码优化实现70倍速度提升，兼容CPU、GPU和TPU。模型能在Hugging Face Hub演示，并提供详细的安装、使用和高级配置指南，助力开发者在多种环境下高效部署。

Deepgram - 全面的语音AI解决方案平台

AI工具Deepgram应用开发语音AI语音合成转录服务

Deepgram提供全面的语音AI技术服务，包括AI语音转文本、智能分析和文本转语音功能。平台支持预录音转录、实时音频转录、文本转语音及音频智能分析。开发者和企业可通过API密钥轻松集成这些功能，并享有200美元的免费额度，可用于750小时的转录或约200小时的文本转语音生成。Deepgram简化了语音AI的开发和应用流程，为各类项目提供高效、准确的语音处理解决方案。

相关项目

项目侧边栏1

项目侧边栏2

推荐项目

Project Cover

豆包MarsCode

豆包 MarsCode 是一款革命性的编程助手，通过AI技术提供代码补全、单测生成、代码解释和智能问答等功能，支持100+编程语言，与主流编辑器无缝集成，显著提升开发效率和代码质量。

Project Cover

AI写歌

Suno AI是一个革命性的AI音乐创作平台，能在短短30秒内帮助用户创作出一首完整的歌曲。无论是寻找创作灵感还是需要快速制作音乐，Suno AI都是音乐爱好者和专业人士的理想选择。

Project Cover

有言AI

有言平台提供一站式AIGC视频创作解决方案，通过智能技术简化视频制作流程。无论是企业宣传还是个人分享，有言都能帮助用户快速、轻松地制作出专业级别的视频内容。

Project Cover

Kimi

Kimi AI助手提供多语言对话支持，能够阅读和理解用户上传的文件内容，解析网页信息，并结合搜索结果为用户提供详尽的答案。无论是日常咨询还是专业问题，Kimi都能以友好、专业的方式提供帮助。

Project Cover

阿里绘蛙

绘蛙是阿里巴巴集团推出的革命性AI电商营销平台。利用尖端人工智能技术，为商家提供一键生成商品图和营销文案的服务，显著提升内容创作效率和营销效果。适用于淘宝、天猫等电商平台，让商品第一时间被种草。

Project Cover

吐司

探索Tensor.Art平台的独特AI模型，免费访问各种图像生成与AI训练工具，从Stable Diffusion等基础模型开始，轻松实现创新图像生成。体验前沿的AI技术，推动个人和企业的创新发展。

Project Cover

SubCat字幕猫

SubCat字幕猫APP是一款创新的视频播放器，它将改变您观看视频的方式！SubCat结合了先进的人工智能技术，为您提供即时视频字幕翻译，无论是本地视频还是网络流媒体，让您轻松享受各种语言的内容。

Project Cover

美间AI

美间AI创意设计平台，利用前沿AI技术，为设计师和营销人员提供一站式设计解决方案。从智能海报到3D效果图，再到文案生成，美间让创意设计更简单、更高效。

Project Cover

AIWritePaper论文写作

AIWritePaper论文写作是一站式AI论文写作辅助工具，简化了选题、文献检索至论文撰写的整个过程。通过简单设定，平台可快速生成高质量论文大纲和全文，配合图表、参考文献等一应俱全，同时提供开题报告和答辩PPT等增值服务，保障数据安全，有效提升写作效率和论文质量。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com

@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号