#Python

dask-sql是一个分布式SQL查询引擎，结合Python和SQL，支持无限扩展计算。通过pip或conda安装，可与Jupyter Notebook或BI工具集成，并支持CUDA GPU查询加速。dask-sql支持多种数据格式和存储位置，通过UDFs增强查询能力，适用于本地和云端大规模计算。详细信息请参考官方文档。

Multimodal-Toolkit - 通用多模态数据与文本特征融合工具包

Multimodal TransformersHuggingFace TransformersPython分类任务回归任务Github开源项目

一个用于分类和回归任务的工具包，结合HuggingFace Transformers的文本特征与表格数据，生成多模态特征以提高模型性能。该工具包支持多种模型和组合方法，提供详尽的示例和数据集，包括BERT、ALBERT等模型，以及电商评论、Airbnb数据和宠物领养预测等实际应用。

ice - 用于语言模型程序的 Python 库和跟踪可视化工具

PythonICE语言模型调试并行化Github开源项目

ICE是专为语言模型程序设计的Python库和可视化工具，支持多人模式、代理定义、快速并行执行等功能，允许在浏览器中调试执行轨迹。适用于Python 3.9及以上版本，支持虚拟环境安装和开发，API可能会发生变动，欢迎社区贡献。

lmql - 为大语言模型（LLMs）设计的基于Python的编程语言

LMQL编程语言大型语言模型Python高级解码Github开源项目

LMQL是一种基于Python的编程语言，专为大语言模型（LLMs）设计。它结合传统编程与LLM调用，实现代码级的LLM互动。LMQL允许在执行过程中实时调用LLM，并通过约束机制控制模型行为。支持多种解码算法和多模型集成，通过丰富的控制流和异步API，提高语言模型应用效率。用户可以通过浏览器内的Playground IDE探索更多示例和文档。

WeChatRobot - 基于 WeChatFerry 的微信机器人示例

WeChatRobotPythonWeChatFerryAI模型微信机器人Github开源项目

基于WeChatFerry的微信机器人示例，提供详细的安装步骤与配置指南，快速启动并集成ChatGPT、Tigerbot、ChatGLM和讯飞星火等AI模型。项目支持文档、视频教程与常见问题解答，指导用户实现群聊自动响应与智能交互。包含Python依赖的安装和HTTP接口参考，实现微信机器人的高效开发与应用。

xonsh - Python驱动的跨平台Shell，融合Shell和Python功能

xonshPythonshell插件交互式笔记本Github开源项目

Xonsh是一个Python驱动的跨平台Shell，它是Python 3.6+的超集，并增加了Shell原语，提升命令行体验。用户可通过pip安装，并访问官方网站获取详细的安装指南和教程。Xonsh拥有丰富的扩展系统xontribs，支持多种需求。包括conda、mamba在内的众多项目都兼容xonsh。该项目由志愿者社区支持，欢迎新贡献者加入，共同改进和推广此工具。

chatgpt-clone - 构建高可定制化聊天AI助手的详细指南

ChatGPT Clone虚拟环境PythonGit合成数据Github开源项目

ChatGPT Clone项目提供高灵活性和可定制的聊天AI解决方案。当前开发暂时中止，预计在六月底更新。现有功能包括删除对话双重确认、记住用户偏好和主题切换。未来计划添加对话加载与导出、语音输入输出和更优文档支持。项目可通过虚拟环境或Docker快速启动，并附有详细的设置与运行指南，适合开发者改进代码和提出建议。

CTCWordBeamSearch - CTC解码器提升文本和语音识别的性能

CTCWord Beam SearchPython文本识别语言模型Github开源项目

CTC Word Beam Search是一种基于词典和语言模型的连接时序分类（CTC）解码器，支持Python 3.11和3.12版本。项目提供详细的安装和使用指南，并通过示例代码展示其在文本识别模型中的应用。算法具有四大特点：使用词典约束词语、允许词间出现任意非词字符、可选用词级语言模型（LM）以及比token传递算法更快。文档中提供了主要参数的说明和更多的技术细节及使用案例，适用于手写文本识别和自动语音识别。

fake-useragent - 支持Python 3.x的用户代理伪造工具，附带最新浏览器版本数据

fake-useragentPythonuser-agent浏览器模拟Github开源项目

fake-useragent 是一个能够获取本地用户代理字符串的工具，支持桌面和移动设备，适用于Python 3.x。它集成了最新的浏览器版本数据库，通过简单的安装命令即可使用。该工具提供多种获取随机用户代理的方式，并且支持自定义浏览器列表、操作系统和平台。适合高级需求，fake-useragent 还提供原始的Python字典形式用户代理数据。它支持设置最低浏览器版本和使用百分比，增强了灵活性，适用于多种开发场景。

autotab-starter - 将浏览器操作演示快速转换为可审计的代码

autotabPythonChrome自动化记录Github开源项目

autotab提供高效的方式，将浏览器操作演示快速转换为可审计的代码。本项目无需任何依赖，支持快速的浏览器自动化设置和操作记录。通过Chrome浏览器和Python虚拟环境，用户可以轻松配置凭据并使用命令行录制和播放自动化操作。autotab简化了自动化脚本的创建过程，使开发者能专注于核心功能开发。现已推出V1版本，加入Discord频道获取最新更新和功能预览。

nucliadb - 专为非结构化数据设计的AI搜索数据库

NucliaDB数据库搜索引擎NLPPythonGithub开源项目

NucliaDB是一款专为存储和搜索非结构化数据设计的强大数据库。它支持向量、全文本和图形索引的混合搜索，由Rust和Python编写，能处理大规模数据集并支持多租户系统。通过Nuclia云平台，无需额外的数据提取、丰富和推理操作。其主要功能包括存储文本、文件、向量、标签和注释，进行语义搜索和高效数据导出，支持云端数据提取、资源备份及分布式搜索。

reinforcement-learning-an-introduction - Sutton & Barto《强化学习: 介绍 (第2版)》的Python实现

Reinforcement LearningPythonSutton & Barto算法图像分析Github开源项目

该项目提供了Sutton和Barto所著《Reinforcement Learning: An Introduction（第2版）》的Python代码实现，涵盖各章节的示例和性能分析。项目专注于强化学习核心算法的实现和优化，适合打算深入了解和应用强化学习技术的开发者与研究人员。欢迎交流、贡献代码，提升项目质量与完整性。

pykaldi - Python 语音识别工具

PyKaldiKaldi语音识别PythonOpenFstGithub开源项目

PyKaldi是一款Python脚本工具，为Kaldi语音识别工具包和OpenFst库提供了易用的Python包装器。它适用于语音识别研究人员和专业人士，可在Python中调用低级Kaldi函数、操作对象，并实现新工具。PyKaldi是对Kaldi的有力补充，其高层次的应用模块如ASR、对齐和分段，使大部分Python程序员都能上手。如果需要在Python中操控Kaldi和OpenFst对象，PyKaldi是一个理想的选择。

openlrc - 使用 Whisper 和 LLM（GPT、Claude 等）将语音转录并翻译成 LRC 文件的Python库

Open-LyricsPython语音转录翻译LRC 文件Github开源项目

OpenLRC是一个Python库，利用faster-whisper进行语音转录，并使用LLM如OpenAI-GPT和Anthropic-Claude将其翻译和优化支持.lrc字幕文件生成。该库提供上下文感知的翻译以提升质量，并支持生成双语字幕和自定义API端点。适用于音频和视频文件的转录和翻译，支持多种翻译引擎和输出格式，安装和使用简便。

LLM-PowerHouse-A-Curated-Guide-for-Large-Language-Models-with-Custom-Training-and-Inferencing - 大型语言模型的定制训练和推理指南

LLM PowerHouse自然语言处理机器学习深度学习PythonGithub开源项目

LLM-PowerHouse项目为开发人员、研究人员和爱好者提供一站式指南，通过定制化训练和推理优化大型语言模型（LLMs）。包括基础知识、先进技术、模型压缩、优化策略和实例代码，适用于高效智能的自然语言理解应用。

carefree-creator - 开源AI创作工具，集成多种生成模型

carefree-creatorAI绘图PythonpytorchGPUGithub开源项目

`carefree-creator`是一个开源的AI创作工具，集成了多种生成模型，基于`carefree-learn`构建，支持Python>=3.8和pytorch>=1.12.0。项目提供多种节省GPU RAM的加载方式，并支持CLI和Docker安装。详细的硬件要求与使用指南请见Wiki页面。

carefree-drawboard - 纯Python构建的绘图和图像处理平台

carefree-drawboardPython前端安装图像处理插件Github开源项目

carefree-drawboard是一个利用纯Python构建的高性能绘图和图像处理平台。它支持插件化的功能，包括高斯模糊和Stable Diffusion等图像处理及生成。通过简单的安装和初始化命令，可以快速创建和运行定制化的绘图应用。项目虽然处于早期阶段，但提供定期更新和全面的文档支持，非常适合对AI和图像处理有兴趣的开发者。

graph-cut-ransac - 高效鲁棒性估计算法，支持同源矩阵、基础矩阵及6D姿态估计

Graph-Cut RANSACOpenCVPythonC++Computer VisionGithub开源项目

Graph-Cut RANSAC是一种用于同源矩阵、基础矩阵和6D姿态估计的鲁棒性算法。它已包括在OpenCV中，并支持通过pip安装Python封装，或通过CMake编译C++源码。该算法的应用示例可通过Jupyter Notebook进行演示，主要依赖Eigen、CMake和OpenCV库，适用于现代编译器。

ComfyUI-to-Python-Extension - 翻译ComfyUI工作流为Python脚本

ComfyUI-to-Python-ExtensionComfyUIPython工作流转换图像生成Github开源项目

ComfyUI-to-Python-Extension工具可以将ComfyUI工作流程转换为Python代码，简化将设计转化为代码执行的过程。它适用于数据科学家、软件开发人员和AI爱好者，支持从创建应用到大规模图像生成任务的实现。现在项目还支持自定义节点，增强了脚本的灵活性和扩展性。

God-Level-AI - 涵盖机器学习与个人品牌的视频课程

god level AIPython机器学习深度学习数据结构与算法Github开源项目

该项目旨在帮助成为顶尖1%数据与AI专家的个人，通过视频课程和文本内容进行科学方法、算法和系统构建训练。无论是领导者、专业人士还是学生，都需付出相应努力才能达到顶峰。项目内容涵盖Python、数据结构与算法、深度学习、MLOps和个人品牌塑造等，提供全面的知识和实用技巧。

boxx - 高效Python工具箱，助力科学计算和计算机视觉调试

Box-XPython计算机视觉科学计算工具箱Github开源项目

Box-X是一款为Python开发者设计的高效构建与调试工具箱，特别适用于科学计算和计算机视觉。它兼容Linux、macOS和Windows平台，并支持Python 2/3环境（包括CPython、IPython、Spyder和Notebook）。主要功能包括变量打印和传输、矩阵及张量可视化、复杂结构的树状显示以及多进程加速。用户可通过Binder在线互动教程或本地Jupyter Notebook查看详细教程，推荐通过源代码安装以确保版本的及时更新。

visionscript - 抽象编程语言，用于快速执行计算机视觉任务

VisionScript计算机视觉Python对象检测图像分类Github开源项目

VisionScript是一个基于Python的编程语言，专门用于快速执行目标检测、分类和分割等常见计算机视觉任务。其简洁的语法允许用户通过少量代码完成复杂的视觉操作，并支持在交互式网络笔记本中运行。VisionScript兼容多个知名模型，包括CLIP、YOLOv8和BLIP，适合新手上手。无论是执行零样本分类，还是在照片中替换特定对象，VisionScript均能提供高效解决方案。

SimSwap - 支持高保真图像和视频处理的换脸框架

SimSwap人脸交换ACM会议高分辨率数据集PythonGithub开源项目

SimSwap框架实现任意换脸，支持高保真图像和视频处理。采用单一训练模型，无需再次训练。适用于学术和技术用途，提供详细的训练与测试代码。支持高分辨率数据集VGGFace2-HQ，定期更新进展。欢迎工程师加入团队。高质量案例视频可在Google Drive和Bilibili观看。

SAM-Adapter-PyTorch - 提升复杂场景下图像分割效果的开源项目

SAM-AdapterSegment AnythingICCVPythonPyTorchGithub开源项目

SAM-Adapter项目提升了SAM在伪装、阴影和医疗图像分割中的表现。最新的更新支持更强大的SAM2骨干网络，并提供多种预训练模型和数据集下载链接，便于快速上手。该项目在IEEE/CVF国际计算机视觉会议上展示，并包含详细的环境配置和训练指南，方便研究人员进行深度学习任务。

menpo - 图像与网格数据的导入、操作和可视化工具

MenpoPython机器学习计算机视觉数据处理Github开源项目

Menpo项目提供了一套Python库，简化图像和网格数据的导入、操作和可视化。作为机器学习和计算机视觉常用工具，Menpo支持标注数据的操作，使图像遮罩、裁切和对齐等任务变得简单。支持多个Python版本，建议使用conda安装，以解决复杂的依赖问题。Menpo还包含menpofit、menpo3d和menpodetect等附加库，以扩展功能。用户可以通过Jupyter Notebooks学习并在线浏览示例笔记本。

errbot - 支持多聊天平台和插件的Python聊天机器人

ErrbotchatbotPython开源软件GPLv3Github开源项目

Errbot是一种以Python编写的开源聊天机器人，支持在多种聊天平台（如IRC、Telegram和XMPP）中运行脚本。通过插件，Errbot还能扩展支持Slack、Discord和Gitter等平台。该项目采用GPL v3许可证发布，功能易于扩展，支持从聊天中配置插件、管理聊天室、和安全控制列表。开发者可以通过简单的Python代码编写新插件，利用存储、Webhook和多种参数解析等功能。

langchain-experiments - 实验与实现LangChain库的高级大语言模型应用

LangChainGPT-3.5 TurboFAISSPythonOpenAIGithub开源项目

本项目展示了如何利用先进的语言模型（如OpenAI的GPT-3.5 Turbo和即将发布的GPT-4）以及FAISS库，创建搜索YouTube视频转录的数据库，进行相似度查询，并回答用户问题。项目覆盖LangChain框架的核心模块，包括模型、提示、记忆、索引、链条和代理，适用于开发客户支持聊天机器人、内容生成器、数据分析工具和智能搜索引擎等应用。

vectordb - 精简而强大的Python向量数据库，支持本地、内部和云端部署，全面支持CRUD操作

VectorDBJina AIDocArrayPythongRPCGithub开源项目

`vectordb` 是一款轻量级的Python向量数据库，支持本地、内部和云端部署。它具有全面的CRUD操作和扩展选项，包括分片和复制，可适应各种环境。结合DocArray的检索能力和Jina的扩展性能，vectordb提供了简洁而强大的用户体验。同时，它支持gRPC、HTTP和WebSocket等通信协议，能在多种场景中灵活应用，极大地方便了开发人员。

RecBole - 基于Python和PyTorch的推荐系统框架，支持91种算法和43个数据集

RecBole推荐系统PythonPyTorchRecBole2.0Github开源项目

RecBole是一个基于Python和PyTorch的推荐系统框架，旨在高效地复现和开发推荐算法。该框架包含91种算法，涵盖通用推荐、序列推荐、情境推荐和知识推荐四大类。RecBole支持43个基准数据集，并提供GPU加速和标准评估协议以满足研究需求。最新版本增加了扩展包，提升用户体验，并支持多GPU和混合精度训练。

DeepDanbooru - AI动漫图片标签预测工具

DeepDanbooru动漫图像标签PythonTensorflow训练项目Github开源项目

DeepDanbooru是一个用Python实现的AI工具，用于对动漫风格图片进行标签预测。通过TensorFlow进行训练和评估，支持使用Danbooru数据集或自定义数据集进行操作。

crepe - 基于深度卷积神经网络的单音音高跟踪器

CREPE深度卷积神经网络音高跟踪Python音频处理Github开源项目

CREPE是一款基于深度卷积神经网络的单音音高跟踪器，直接处理时域波形输入，性能优于流行的音高跟踪器如pYIN和SWIPE。用户可通过PyPI安装，并利用预训练模型进行音高预测，结果包含时间戳、预测音高和置信度。CREPE支持时间步长调整、模型容量选择和时间序列平滑，适用于人声和乐器音频，并支持批量处理。

pygod - 图形异常检测的Python库

PyGODPython图异常检测PyTorchGraph Outlier DetectionGithub开源项目

PyGOD是一个用于图形异常检测的Python库，支持超过10种检测算法，可应用于社交网络和安全系统中的异常检测。该库基于PyTorch和PyTorch Geometric，提供一致的API、详细的文档和互动示例，支持节点、边和图级别的检测任务。与PyG数据对象完全兼容，并具备处理大规模图数据的扩展能力，简化了图数据的处理流程。

nitrain - 医学图像采样与增强的跨平台Python库

Nitrain医学影像AI框架Python深度学习Github开源项目

Nitrain是一个高层次的Python库，用于简化医学图像采样和增强，支持多个框架（如Torch、TensorFlow、Keras）。该项目旨在简化医疗成像AI模型的训练过程，通过详细教程和文档，用户可以迅速上手并进行模型的训练和可视化。Nitrain提供合理的默认设置，使得模型训练变得更加简单，并且支持多个依赖包如ANTS。

tensorly - Python张量学习库，兼容多种计算后端

TensorLyPython张量分解机器学习张量代数Github开源项目

TensorLy是一个专注于简化张量学习的Python库，支持张量分解、张量学习和张量代数操作。其后端系统兼容NumPy、PyTorch、JAX、TensorFlow和CuPy，可在CPU或GPU上执行大规模计算。安装方便，仅需使用pip或conda命令，且提供详尽的文档和Jupyter Notebooks示例，方便用户快速入门。这个工具不仅适合学术研究，还为开发者提供了丰富的API，欢迎通过GitHub进行贡献。

tensorforce - 适用于研究与实操的模块化深度强化学习 TensorFlow 框架

Tensorforce深度强化学习TensorFlow开源框架PythonGithub开源项目

Tensorforce 是一个开源的深度强化学习框架，基于TensorFlow构建，具有模块化设计，支持多种算法和环境适配，确保模型移植与编程语言无关。

handson-ml - Python机器学习基础与实践指南

Machine LearningPythonScikit-LearnTensorFlowJupyterGithub开源项目

该项目通过Python教授机器学习基本原理，包含《Hands-on Machine Learning with Scikit-Learn and TensorFlow》书中的示例代码和习题解答。用户可以使用Colab、Binder和Deepnote在线体验这些notebooks，或通过Anaconda在本地安装项目进行学习。详细介绍了安装步骤和常见问题解决方法，帮助用户理解和应用机器学习技术。

NucliaDB: 专为AI搜索和RAG设计的开源向量数据库

2024年08月29日

Ray: 统一框架助力AI和Python应用扩展

2024年08月29日

Taipy: 构建Python数据和AI Web应用的强大工具

2024年08月29日

Vanna：革新数据分析的开源AI助手

2024年08月29日

Cookiecutter Data Science:数据科学项目的标准化模板工具

2024年08月30日

AutoScraper:智能、自动、快速的Python网页抓取库

2024年08月30日

OpenPrompt:一个开源的提示学习框架

2024年08月30日

海洋翻车鱼：大海中的奇特巨鱼

2024年08月30日

ScrapeGraphAI：开源的大语言模型爬虫，只要说出需求就会自动全网抓取想要的信息

2024年08月03日

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com