项目介绍:Agents
什么是Agents?
Agents是一个框架,用于构建由人工智能驱动的服务器程序,能够实时地"看"、"听"和"说"。在用户的设备上发起LiveKit会话后,Agents可以处理从用户设备传来的文字、音频、图像或视频,并通过AI模型产生相应形式的输出,然后将这些输出流回给用户。
这个框架的使用场景十分广泛。无论是文字转换为语音、音频转录,再到复杂的多模态交互,Agents都能提供解决方案。
主要功能
-
插件支持:框架中支持许多流行的LLM、转录和语音合成服务插件,以及相关的RAG数据库。通过这些插件,可以容易地处理流媒体输入或生成输出。
-
高级抽象:适合用于构建语音代理或助手应用,提供自动转录检测、打断处理、函数调用等功能。
-
电话网络兼容:兼容LiveKit的电话网络,可以让Agent发起或接收电话。
-
负载均衡系统:集成的负载均衡系统管理着边缘节点的代理池,提供监控和透明的故障转移机制。
-
灵活的环境支持:无论是在本地、私有云还是LiveKit Cloud上部署,运行Agents的体验都是一致的。
开始使用
用户可以通过以下命令安装Agents库的核心模块:
pip install livekit-agents
同时,还可以选择安装不同的插件,例如OpenAI的插件,可以用以下命令安装:
pip install livekit-plugins-openai
插件列表
目前,用户可以选择以下插件:
- livekit-plugins-anthropic:支持LLM
- livekit-plugins-assemblyai:提供STT服务
- livekit-plugins-azure:支持STT和TTS
- livekit-plugins-deepgram:支持STT
- livekit-plugins-cartesia:提供TTS服务
- livekit-plugins-elevenlabs:提供TTS服务
- livekit-plugins-playht:提供TTS服务
- livekit-plugins-google:支持STT和TTS
- livekit-plugins-nltk:提供文本处理工具
- livekit-plugins-rag:支持RAG功能
- livekit-plugins-silero:提供语音活动检测(VAD)
实例示例
Agents框架提供多个实例示例,帮助用户更好地理解和应用框架功能。例如:
- 使用OpenAI实时API的语音代理。
- 利用Cerebras提供的Llama 3.1运行超快速语音代理。
- 使用Cartesia的Sonic模型构建的语音代理。
- 基于RAG的查询语音代理。
参与贡献
Agents框架正处于积极开发中,欢迎任何形式的贡献。无论是反馈、bug修复、功能扩展还是改进文档,社区都非常欢迎。
总之,Agents提供了一个强大而灵活的平台,能够帮助开发者轻松构建面对多模式用户交互的AI驱动应用。通过强大的插件支持和灵活的环境适应性,Agents成为了实时AI应用开发的坚实选择。