Project Icon

ollama-voice

离线语音交互AI助手 集成语音识别对话和合成功能

ollama-voice是一个集成Whisper语音识别、Ollama大语言模型和pyttsx3文本转语音技术的开源项目。它创建了一个完全离线的语音交互AI助手,支持本地语音识别、自然语言处理和语音合成。用户通过按住空格键即可与AI对话,适用于需要隐私保护或离线环境的语音交互场景。

ultravox-v0_3 - 集成语音和文本输入的多模态AI模型
GithubHuggingfaceLlamaUltravoxWhisper多模态模型开源项目模型语音识别
Ultravox-v0_3是Fixie.ai开发的多模态语音大语言模型,结合Llama3.1-8B-Instruct和Whisper-small技术。该模型可同时处理语音和文本输入,适用于语音助手、翻译和分析等场景。通过知识蒸馏方法,仅训练多模态适配器,保持基础模型不变。Ultravox在语音识别和翻译任务中展现出优秀性能,为语音交互应用提供了新的可能性。
DiVA-llama-3-v0-8b - 基于Llama的端到端双模态语音助手系统
DiVA Llama 3GithubHuggingface人工智能模型开源项目模型模型训练语音助手语音识别
DiVA-llama-3-v0-8b是一个基于Llama-3.1-8B-Instruct的端到端语音助手系统,集成了语音和文本双模态输入功能。模型通过蒸馏损失训练方法开发,使用CommonVoice语料库训练,无需额外指令训练数据。该项目提供在线演示界面,并在Weights&Biases平台公开了完整训练日志。
SpeechPulse - 智能语音识别转写与多语言支持系统
AI工具多语言支持实时转录语音识别语音输入隐私保护
SpeechPulse整合了实时语音识别、多语言支持和离线处理功能,为用户提供全面的语音转文字解决方案。系统采用Whisper AI模型,支持自动和手动标点、自动语音输入及按键说话等多种模式。内置AI模板可进行语法校正和文本格式化,同时具备音频文件处理、说话人分离和字幕生成功能。适用于各类应用程序,能够满足日常和专业用户的多样化需求,是一款高效且功能丰富的语音识别工具。
whisper.api - 开源自托管语音转文字API项目
API密钥GithubWhisper API开源项目自托管语音转文本
whisper.api是一个开源的自托管语音转文字API项目,基于微调的Whisper ASR模型。项目提供HTTP API接口,支持用户级API密钥管理,并采用量化模型优化,实现高效推理。其开源特性便于自定义和私有部署,适用于各类需要语音识别功能的应用场景。
transcriptionstream - 离线的自托管语音识别服务,支持快速文本搜索
GithubMeilisearchMistralOllamaTranscription Streamwhisper-diarization开源项目
Transcription Stream是一款离线运行的自托管语音识别与多说话者分离服务,支持拖放操作、SSH文件传输、Ollama和Mistral的摘要生成,以及Meilisearch带来的快速全文搜索功能。用户可以通过Web界面或SSH上传、审阅和下载处理后的文件,结果存储在相应的命名和标日期的文件夹中。
alltalk_tts - 开源多功能语音合成框架
APIAllTalkGithubTTS开源项目文本生成语音合成
AllTalk TTS是一个开源的语音合成框架,支持本地和自定义模型,提供API接口和第三方集成。它具备模型微调、批量生成、低显存模式等功能,可独立运行或与多种AI平台集成。该项目提供便捷安装工具、详细文档和清晰控制台输出,适用于多样化的语音合成应用场景。
Whisper-transcription_and_diarization-speaker-identification- - 使用OpenAI Whisper进行音频转录和说话人识别的完整教程
GithubOpenAIWhisperdiarization人工智能开源项目音频转录
本教程详细介绍如何使用OpenAI Whisper进行音频转录和说话人识别,并结合pyannote-audio进行对话分析。学习如何准备音频、区分说话人,并将结果与转录文本匹配,实现智能音频分析。
pi-card - 树莓派上的离线AI智能助手
AI助手GithubRaspberry Pi开源项目离线系统计算机视觉语音交互
Pi-C.A.R.D是一个完全运行在树莓派上的离线AI智能助手项目。它集成了标准大语言模型的对话能力,同时支持拍照、图像描述和分析功能。该系统通过唤醒词或按钮触发对话,具有可配置的对话记忆功能。Pi-C.A.R.D采用C++实现音频转录和视觉语言模型,确保高效运行,同时保护用户隐私。
local_llama - 本地LLM驱动的离线文档对话系统 支持多种文件格式
GithubLocal Llama向量数据库开源项目文档处理本地语言模型离线聊天
Local Llama是一个基于本地LLM的离线文档对话系统。该项目支持PDF、TXT、DOCX等多种文件格式,使用Ollama集成本地LLM,实现完全离线运行。系统采用持久化向量数据库存储文档索引,通过Streamlit提供用户界面。Local Llama无需依赖云服务,确保数据隐私和离线访问,为用户提供安全、高效的文档交互体验。
whisper-large-v3 - 突破性多语言语音识别与翻译模型
GithubHuggingfaceOpenAIWhisper多语言开源项目模型语音翻译语音识别
Whisper large-v3是OpenAI开发的新一代语音识别和翻译模型,支持100多种语言。相比前代模型,它采用128个梅尔频率通道并新增粤语语言标记,将各语言错误率降低10-20%。模型可用于语音转录和翻译任务,易于集成应用。Whisper large-v3展现出卓越的泛化能力,为语音识别技术带来重大进展。
项目侧边栏1项目侧边栏2
推荐项目
Project Cover

豆包MarsCode

豆包 MarsCode 是一款革命性的编程助手,通过AI技术提供代码补全、单测生成、代码解释和智能问答等功能,支持100+编程语言,与主流编辑器无缝集成,显著提升开发效率和代码质量。

Project Cover

AI写歌

Suno AI是一个革命性的AI音乐创作平台,能在短短30秒内帮助用户创作出一首完整的歌曲。无论是寻找创作灵感还是需要快速制作音乐,Suno AI都是音乐爱好者和专业人士的理想选择。

Project Cover

有言AI

有言平台提供一站式AIGC视频创作解决方案,通过智能技术简化视频制作流程。无论是企业宣传还是个人分享,有言都能帮助用户快速、轻松地制作出专业级别的视频内容。

Project Cover

Kimi

Kimi AI助手提供多语言对话支持,能够阅读和理解用户上传的文件内容,解析网页信息,并结合搜索结果为用户提供详尽的答案。无论是日常咨询还是专业问题,Kimi都能以友好、专业的方式提供帮助。

Project Cover

阿里绘蛙

绘蛙是阿里巴巴集团推出的革命性AI电商营销平台。利用尖端人工智能技术,为商家提供一键生成商品图和营销文案的服务,显著提升内容创作效率和营销效果。适用于淘宝、天猫等电商平台,让商品第一时间被种草。

Project Cover

吐司

探索Tensor.Art平台的独特AI模型,免费访问各种图像生成与AI训练工具,从Stable Diffusion等基础模型开始,轻松实现创新图像生成。体验前沿的AI技术,推动个人和企业的创新发展。

Project Cover

SubCat字幕猫

SubCat字幕猫APP是一款创新的视频播放器,它将改变您观看视频的方式!SubCat结合了先进的人工智能技术,为您提供即时视频字幕翻译,无论是本地视频还是网络流媒体,让您轻松享受各种语言的内容。

Project Cover

美间AI

美间AI创意设计平台,利用前沿AI技术,为设计师和营销人员提供一站式设计解决方案。从智能海报到3D效果图,再到文案生成,美间让创意设计更简单、更高效。

Project Cover

稿定AI

稿定设计 是一个多功能的在线设计和创意平台,提供广泛的设计工具和资源,以满足不同用户的需求。从专业的图形设计师到普通用户,无论是进行图片处理、智能抠图、H5页面制作还是视频剪辑,稿定设计都能提供简单、高效的解决方案。该平台以其用户友好的界面和强大的功能集合,帮助用户轻松实现创意设计。

投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号