py-gpt - 多功能桌面AI助手，支持多模式与模型集成

项目介绍：PyGPT - 桌面AI助手

PyGPT 是一个多合一的桌面AI助手，旨在提供与OpenAI语言模型的直接互动。它支持的模型包括 o1、gpt-4o、gpt-4、gpt-4 Vision 和 gpt-3.5，并通过 OpenAI API 实现。此外，利用 Langchain 和 Llama-index，它还支持其它大型语言模型（LLM），如 HuggingFace 上的模型、本地可用模型（如 Llama 3、Mistral 或 Bielik）、Google Gemini 和 Anthropic Claude。

功能概览

PyGPT 提供多种模式以满足各类任务需求，包括聊天模式、助手模式、完成模式及图像相关任务。它可以通过 DALL-E 3 生成图像，并能用 gpt-4 Vision 进行图像分析。PyGPT 具有文件系统操作能力，可以进行文件输入和输出、生成和运行Python代码、执行自定义命令以及管理文件传输。此外，它还支持通过 Google 和 Microsoft Bing 进行网络搜索。

音频方面，PyGPT 支持通过 Microsoft Azure、Google、Eleven Labs 和 OpenAI 的文字转语音服务实现语音合成，并借助 OpenAI Whisper、Google和 Bing语音识别功能理解用户的口述命令并将音频输入转换为文本。PyGPT 还具备上下文记忆功能，允许用户在对话中保存和加载预定义的谈话点。提示的创建和管理通过直观的预设系统得以优化。

PyGPT 的功能通过插件支持进一步扩展，可以进行自定义增强。其多模态功能使其在文本交互、系统自动化、日常辅助、视觉应用、自然语言处理、代码生成和图像创建等方面成为一个灵活的工具。

PyGPT 的主要特点

提供 9 种操作模式：聊天、视觉、完成、助手、图像生成、Langchain、文件聊天、专家及自主代理模式。
支持多种模型：o1、gpt-4、gpt-3.5等，以及所有通过Langchain 和 Llama-index可访问的模型。
包含对残障人士的支持功能：自定义键盘快捷键、语音控制以及通过语音合成将屏幕动作翻译为音频。
支持互联网访问，并能执行命令、上传和下载文件。
能够跟踪对话的全部上下文。
允许用户轻松管理提示，界面和操作直观。
支持多语言，开放源码，代码可以在 GitHub 上获取。

安装指南

已编译版本（Linux 和 Windows 操作系统）

用户可以从 PyGPT 网站下载适用于各种操作系统的已编译版本，包括 .msi 或 zip/tar.gz 文件格式，适用于 64 位系统。

通过 Snap Store 安装

用户可以直接从 Snap Store 安装 PyGPT：

sudo snap install pygpt

通过 PyPi 安装

用户也可以通过 PyPi 使用 pip installer 安装：

pip install pygpt-net

源代码安装

也可以从 GitHub 下载源码，并使用 Python 解释器运行（支持版本：>=3.10, <3.12）：

git clone https://github.com/szczyglis-dev/py-gpt.git
cd py-gpt
python3 -m venv venv
source venv/bin/activate
pip install -r requirements.txt
python3 run.py

开始使用

PyGPT 是一个免费开源应用，兼容 Linux 和 Windows 10/11 系统。使用该应用必须有一个注册的 OpenAI 账户以及自己的API密钥，可以通过 OpenAI 官网获取。

以上是 PyGPT 项目的一些核心内容，涵盖其功能、特点以及安装使用的信息。这个全面多功能的工具将帮助用户在桌面上更加高效地使用人工智能技术。