leopard

本地运行的跨平台语音转文字引擎

Leopard 语音转文字跨平台离线处理 Picovoice Github 开源项目

Leopard是一款本地运行的语音转文字引擎，具有高精度、隐私保护和跨平台特性。该引擎支持多种编程语言和平台，包括iOS、Android和Web等。Leopard提供简单易用的API，便于集成到各类应用中，实现优质的语音识别功能。其紧凑高效的设计适用于多种设备，为开发者提供灵活强大的语音转文字解决方案。

访问官网

Github

介绍相关项目

ollama-voice - 离线语音交互AI助手集成语音识别对话和合成功能

Githubollama-voice大型语言模型开源项目文字转语音离线模式语音识别

ollama-voice是一个集成Whisper语音识别、Ollama大语言模型和pyttsx3文本转语音技术的开源项目。它创建了一个完全离线的语音交互AI助手，支持本地语音识别、自然语言处理和语音合成。用户通过按住空格键即可与AI对话，适用于需要隐私保护或离线环境的语音交互场景。

Whisperboard - 提供的语音转录服务的开源iOS应用

GithubOpenAIWhisperBoardiOS开源项目灵活模型语音转录

WhisperBoard是一款开源iOS应用，基于OpenAI的Whisper模型，为用户提供高质量的语音转录服务。用户可通过简单操作开始录音，并进行高级语音转录。此应用支持音频文件的导入与导出，并可灵活选择录音麦克风，以确保最佳音质。用户还可以在应用中浏览和下载不同的Whisper模型，以满足不同需求。未来功能包括实时转录和可恢复转录进程。

GoWhisper - 跨平台本地音频转录应用注重隐私保护

AI工具AI转录GoWhisper多语言支持文件格式转换语音转文字

GoWhisper是一款跨平台桌面应用，专注于本地音频转录，确保用户隐私。支持99种语言转录，适合研究人员、播客主持人和内容创作者使用。应用提供多种AI模型、文件格式支持和导出选项，简化转录流程。其功能包括音频播放、录音转录和文本编辑，为用户提供全面的音频处理方案。

SpeechFlow - 高准确度多语言语音识别API实现智能音频转文字

AI工具API集成人工智能准确率多语言支持语音转文字

SpeechFlow语音识别API支持14种语言的音频转文字，准确率超越市场同类20%。简洁API设计便于云端和本地部署，高效处理大量音频。按需付费模式为企业和个人提供可靠的语音转写解决方案，促进音频内容智能化。

RealtimeSTT_LLM_TTS - 整合语音识别与AI对话的开源项目

GPU支持GithubRealtimeSTT唤醒词实时转录开源项目语音转文字

该项目集成语音识别、AI对话和语音合成,支持GPU加速以实现低延迟交互。具备语音检测、实时转录和唤醒词等功能,可用于开发语音助手和AI对话应用。Web界面支持个性化配置,适合快速构建语音交互系统。

chat-with-mlx - Apple Silicon Mac本地AI聊天平台支持多种开源大语言模型

Apple SiliconGithubMLX开源模型开源项目机器学习聊天机器人

chat-with-mlx是一个基于Apple MLX框架的本地AI聊天平台，专为Apple Silicon Mac打造。该平台集成了Llama-3、Phi-3、Yi等多种开源大语言模型，注重用户数据隐私保护。项目特点包括简易安装、便捷使用，支持集成HuggingFace和MLX兼容模型。此外，平台还提供文档和YouTube视频处理功能，是一个全面的MLX语言模型聊天界面。

Lugs.ai - 离线智能音频转录与实时字幕生成工具

AI工具Lugs.ai听障辅助实时字幕离线工作语音转写

Lugs.ai是一款AI驱动的离线音频转录和实时字幕生成工具。无需网络连接，可将电脑和麦克风的音频内容快速转换为文字。由听障开发者设计，Lugs.ai能深度理解对话上下文，提供高精度转录。适用于会议记录、学习辅助、视频制作等多种场景。该工具注重用户隐私，持续优化性能，为需要实时字幕的用户提供便捷解决方案。

ollama-voice-mac - 离线可用的Mac专用语音助手

GithubMistral 7bWhisperollama-voice-mac开源项目离线识别语音助手

Ollama-voice-mac是一个离线语音助手，利用Ollama和Whisper语音识别模型工作。通过安装Ollama、Mistral 7b和OpenAI Whisper Model，即可在Mac上运行。该项目基于maudoin的工作进行了改进，兼容Mac，适用于macOS 14 Sonoma及以上版本。通过下载更高质量的系统语音，如'Zoe (Premium)'，可提升语音质量。用户也可以通过修改assistant.yaml文件来支持其他语言，方便多语言使用。

openai-whisper-api - 多功能开源语音转文字API，支持多语言和多任务

DockerGithubNode.jsOpenAI Whisper APITypescript开源项目语音识别

OpenAI Whisper API是一种开源AI模型微服务，采用OpenAI先进的语音识别技术，支持多语言识别、语言识别和语音翻译。该服务基于Node.js、Bun.sh和Typescript构建，可在无依赖的Docker环境中运行，适用于语音和语言相关的应用。无论是转录语音消息、改进系统性能，还是探索Whisper API的功能，这都是一个强大的工具，且采用MIT许可证，开发者可以轻松使用。

CosyVoice - 提升智能语音体验的创新技术和多语言支持

CosyVoiceGithub在线演示多语言支持开源项目语音模型跨语言推理

CosyVoice是一个先进的多语言语音生成技术，致力于提升语音交互的流畅性和实时反馈。该项目支持广泛的语言，提供灵活的下载和安装选项，包括跨语言和指令式语音合成，满足不同用户需求。通过预训练模型和定制选项，用户可以实现从简短语句到完整语音输出的自然转换，优化整体交互体验。

相关项目

项目侧边栏1

项目侧边栏2

推荐项目

Project Cover

豆包MarsCode

豆包 MarsCode 是一款革命性的编程助手，通过AI技术提供代码补全、单测生成、代码解释和智能问答等功能，支持100+编程语言，与主流编辑器无缝集成，显著提升开发效率和代码质量。

Project Cover

AI写歌

Suno AI是一个革命性的AI音乐创作平台，能在短短30秒内帮助用户创作出一首完整的歌曲。无论是寻找创作灵感还是需要快速制作音乐，Suno AI都是音乐爱好者和专业人士的理想选择。

Project Cover

有言AI

有言平台提供一站式AIGC视频创作解决方案，通过智能技术简化视频制作流程。无论是企业宣传还是个人分享，有言都能帮助用户快速、轻松地制作出专业级别的视频内容。

Project Cover

Kimi

Kimi AI助手提供多语言对话支持，能够阅读和理解用户上传的文件内容，解析网页信息，并结合搜索结果为用户提供详尽的答案。无论是日常咨询还是专业问题，Kimi都能以友好、专业的方式提供帮助。

Project Cover

阿里绘蛙

绘蛙是阿里巴巴集团推出的革命性AI电商营销平台。利用尖端人工智能技术，为商家提供一键生成商品图和营销文案的服务，显著提升内容创作效率和营销效果。适用于淘宝、天猫等电商平台，让商品第一时间被种草。

Project Cover

吐司

探索Tensor.Art平台的独特AI模型，免费访问各种图像生成与AI训练工具，从Stable Diffusion等基础模型开始，轻松实现创新图像生成。体验前沿的AI技术，推动个人和企业的创新发展。

Project Cover

SubCat字幕猫

SubCat字幕猫APP是一款创新的视频播放器，它将改变您观看视频的方式！SubCat结合了先进的人工智能技术，为您提供即时视频字幕翻译，无论是本地视频还是网络流媒体，让您轻松享受各种语言的内容。

Project Cover

美间AI

美间AI创意设计平台，利用前沿AI技术，为设计师和营销人员提供一站式设计解决方案。从智能海报到3D效果图，再到文案生成，美间让创意设计更简单、更高效。

Project Cover

稿定AI

稿定设计是一个多功能的在线设计和创意平台，提供广泛的设计工具和资源，以满足不同用户的需求。从专业的图形设计师到普通用户，无论是进行图片处理、智能抠图、H5页面制作还是视频剪辑，稿定设计都能提供简单、高效的解决方案。该平台以其用户友好的界面和强大的功能集合，帮助用户轻松实现创意设计。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com

@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号