实现一个如同Jarvis一样的AI伴侣,带您进入科幻梦境。
Linguflex 2.0
本项目源于我对科幻的热爱,旨在模拟与AI角色进行生动、真实、像人与人之间的互动。它提供与自定义角色进行语音对话,同时具备多种实用功能:控制智能家居设备、播放音乐、上网搜索、获取电子邮件、显示当前天气信息和新闻、帮助安排日程、搜索或生成图像。
无论您是寻求创新AI体验的用户,还是对该项目感兴趣的开发者,我都邀请您探索这个框架。所有见解、建议和贡献都深受欢迎。我希望在社区的帮助下,将这个个人热情项目推向其全部潜力,共同促进AI的发展。
理解安装难题(点击展开)
有时人们建议:“只提供一个Docker容器;安装太难了。”我理解这种挫败感,但这也是有挑战的:
- 复杂的集成:Linguflex是一个综合框架,结合了先进的TTS技术,如实时本地神经TTS语音生成与实时RVC微调,以及众多其他功能。确保所有这些元素在单一环境下工作,就像为你喜欢的60个Python库而不是三个库找到最小公倍数。此外,该系统必须在各种平台、操作系统版本、Python环境、CUDA版本和CuDNN版本中一致运行。这是一个复杂的难题。
- 依赖管理:Python的特性本身就创造了一个本质上不稳定的环境。即使在要求中固定版本也无法确保稳定性,因为我们的直接依赖库所依赖的传递性依赖库可能会独立更新,可能导致不兼容或中断。这种间接依赖的不稳定性可能会引入时间变化的破坏性变化,通常需要重新安装库或调整依赖树以解决新冲突。
耐心是关键:请对安装过程有耐心。事情可能不会在第一次尝试就成功。有时候,我只需要一些提示来解决问题,有时候你也可能自己解决问题。虽然很少见,但有时会有我们无能为力的情况。尝试一步一步减少这些罕见的情况。
注意:我不断尝试探索更用户友好的安装方法(包括Docker)。
主要功能
- 🆕最新🆕: 现在支持 Ollama,感谢 🌟Philip Ehrbright🌟 杰出的工作,开发这一功能!
- 本地运行:本地保存全部功能,包括本地语音识别、本地TTS、本地语言模型推理,确保隐私和可靠性。
- 超低延迟:Linguflex 的每个部分都经过微调以最小化响应时间,在语言模型通信和TTS生成方面实现了无与伦比的速度。
- 高质量音频:使用语音克隆技术,结合微调XTTS和微调RVC后处理AI模型,Linguflex提供了接近Elevenlabs质量的本地TTS合成。
- 增强功能:简化的功能选择使Linguflex能够快速适应和响应广泛的文本指令和查询。我们使用用户输入的关键字预处理,以最小化语言模型的过载,便于选择正确的功能并减少混淆。
- 开发者友好:通过简洁清晰的编码框架,构建新模块更加直观和高效。
模块
核心模块
- 监听(音频输入模块):这是Linguflex的听觉系统,通过麦克风精确捕获语音指令。
- 大脑:认知处理模块。Linguflex的核心,处理用户输入,使用本地语言模型或OpenAI GPT API。
- 语音(音频输出模块):提供实时TTS,多种提供商选项,高级语音调优功能,包括实时语音克隆(RVC)。
当前扩展模块
- 模仿:这一创意工具允许用户设计自定义AI角色,分配使用语音模块创建的独特语音,并在它们之间切换。
- 音乐:一个用于播放精选歌曲或专辑的语音命令模块,增加用户的音乐体验。
- 邮件:通过IMAP检索电子邮件,与您的数字通信集成。
- 天气:提供当前天气数据和预报,适应您的位置。
- 家居:控制Tuya兼容设备的智能家居,提升您的生活体验。
- 日历:管理个人日历和约会,包括Google Calendar集成。
- 搜索:使用Google搜索API执行文本和图像搜索。
- 服务器:Web服务器功能,连接外部设备如智能手机等。
即将推出的模块
- 视见:通过GPT Vision API赋予助手视觉能力,处理网络摄像头照片和桌面截图。
- 记忆:存储和检索可转换为JSON的数据。
- 新闻:提供当前新闻的简短摘要。
- 金融:通过集成各种金融API提供投资实时追踪,进行财务管理。
- 创造:使用DALL-E API根据文本指令生成生动的图像。
入门指南
请按照模块指南的步骤说明,设置并配置Linguflex模块。
许可证
代码库遵守MIT许可证,TTS模型权重遵守以下列出的个别TTS引擎许可证:
CoquiEngine
- 许可证:仅用于非商业性项目的开源许可。
- 商业用途:需要付费计划。
- 详情:CoquiEngine 许可证
ElevenlabsEngine
- 许可证:仅用于非商业性项目的开源许可。
- 商业用途:适用于所有付费计划。
- 详情:ElevenlabsEngine 许可证
AzureEngine
- 许可证:仅用于非商业性项目的开源许可。
- 商业用途:适用于标准层及以上计划。
- 详情:AzureEngine 许可证
SystemEngine
- 许可证:Mozilla公共许可证2.0和GNU较小通用公共许可证(LGPL)版本3.0。
- 商业用途:在此许可证下允许。
- 详情:SystemEngine 许可证
OpenAIEngine
- 许可证:请阅读OpenAI 使用条款