#Python

dask-sql - 分布式SQL查询引擎,结合Python轻松扩展计算
Dask-SQLPythonSQL分布式计算GPU支持Github开源项目
dask-sql是一个分布式SQL查询引擎,结合Python和SQL,支持无限扩展计算。通过pip或conda安装,可与Jupyter Notebook或BI工具集成,并支持CUDA GPU查询加速。dask-sql支持多种数据格式和存储位置,通过UDFs增强查询能力,适用于本地和云端大规模计算。详细信息请参考官方文档。
Multimodal-Toolkit - 通用多模态数据与文本特征融合工具包
Multimodal TransformersHuggingFace TransformersPython分类任务回归任务Github开源项目
一个用于分类和回归任务的工具包,结合HuggingFace Transformers的文本特征与表格数据,生成多模态特征以提高模型性能。该工具包支持多种模型和组合方法,提供详尽的示例和数据集,包括BERT、ALBERT等模型,以及电商评论、Airbnb数据和宠物领养预测等实际应用。
ice - 用于语言模型程序的 Python 库和跟踪可视化工具
PythonICE语言模型调试并行化Github开源项目
ICE是专为语言模型程序设计的Python库和可视化工具,支持多人模式、代理定义、快速并行执行等功能,允许在浏览器中调试执行轨迹。适用于Python 3.9及以上版本,支持虚拟环境安装和开发,API可能会发生变动,欢迎社区贡献。
lmql - 为大语言模型(LLMs)设计的基于Python的编程语言
LMQL编程语言大型语言模型Python高级解码Github开源项目
LMQL是一种基于Python的编程语言,专为大语言模型(LLMs)设计。它结合传统编程与LLM调用,实现代码级的LLM互动。LMQL允许在执行过程中实时调用LLM,并通过约束机制控制模型行为。支持多种解码算法和多模型集成,通过丰富的控制流和异步API,提高语言模型应用效率。用户可以通过浏览器内的Playground IDE探索更多示例和文档。
WeChatRobot - 基于 WeChatFerry 的微信机器人示例
WeChatRobotPythonWeChatFerryAI模型微信机器人Github开源项目
基于WeChatFerry的微信机器人示例,提供详细的安装步骤与配置指南,快速启动并集成ChatGPT、Tigerbot、ChatGLM和讯飞星火等AI模型。项目支持文档、视频教程与常见问题解答,指导用户实现群聊自动响应与智能交互。包含Python依赖的安装和HTTP接口参考,实现微信机器人的高效开发与应用。
xonsh - Python驱动的跨平台Shell,融合Shell和Python功能
xonshPythonshell插件交互式笔记本Github开源项目
Xonsh是一个Python驱动的跨平台Shell,它是Python 3.6+的超集,并增加了Shell原语,提升命令行体验。用户可通过pip安装,并访问官方网站获取详细的安装指南和教程。Xonsh拥有丰富的扩展系统xontribs,支持多种需求。包括conda、mamba在内的众多项目都兼容xonsh。该项目由志愿者社区支持,欢迎新贡献者加入,共同改进和推广此工具。
chatgpt-clone - 构建高可定制化聊天AI助手的详细指南
ChatGPT Clone虚拟环境PythonGit合成数据Github开源项目
ChatGPT Clone项目提供高灵活性和可定制的聊天AI解决方案。当前开发暂时中止,预计在六月底更新。现有功能包括删除对话双重确认、记住用户偏好和主题切换。未来计划添加对话加载与导出、语音输入输出和更优文档支持。项目可通过虚拟环境或Docker快速启动,并附有详细的设置与运行指南,适合开发者改进代码和提出建议。
CTCWordBeamSearch - CTC解码器提升文本和语音识别的性能
CTCWord Beam SearchPython文本识别语言模型Github开源项目
CTC Word Beam Search是一种基于词典和语言模型的连接时序分类(CTC)解码器,支持Python 3.11和3.12版本。项目提供详细的安装和使用指南,并通过示例代码展示其在文本识别模型中的应用。算法具有四大特点:使用词典约束词语、允许词间出现任意非词字符、可选用词级语言模型(LM)以及比token传递算法更快。文档中提供了主要参数的说明和更多的技术细节及使用案例,适用于手写文本识别和自动语音识别。
fake-useragent - 支持Python 3.x的用户代理伪造工具,附带最新浏览器版本数据
fake-useragentPythonuser-agent浏览器模拟Github开源项目
fake-useragent 是一个能够获取本地用户代理字符串的工具,支持桌面和移动设备,适用于Python 3.x。它集成了最新的浏览器版本数据库,通过简单的安装命令即可使用。该工具提供多种获取随机用户代理的方式,并且支持自定义浏览器列表、操作系统和平台。适合高级需求,fake-useragent 还提供原始的Python字典形式用户代理数据。它支持设置最低浏览器版本和使用百分比,增强了灵活性,适用于多种开发场景。
autotab-starter - 将浏览器操作演示快速转换为可审计的代码
autotabPythonChrome自动化记录Github开源项目
autotab提供高效的方式,将浏览器操作演示快速转换为可审计的代码。本项目无需任何依赖,支持快速的浏览器自动化设置和操作记录。通过Chrome浏览器和Python虚拟环境,用户可以轻松配置凭据并使用命令行录制和播放自动化操作。autotab简化了自动化脚本的创建过程,使开发者能专注于核心功能开发。现已推出V1版本,加入Discord频道获取最新更新和功能预览。
nucliadb - 专为非结构化数据设计的AI搜索数据库
NucliaDB数据库搜索引擎NLPPythonGithub开源项目
NucliaDB是一款专为存储和搜索非结构化数据设计的强大数据库。它支持向量、全文本和图形索引的混合搜索,由Rust和Python编写,能处理大规模数据集并支持多租户系统。通过Nuclia云平台,无需额外的数据提取、丰富和推理操作。其主要功能包括存储文本、文件、向量、标签和注释,进行语义搜索和高效数据导出,支持云端数据提取、资源备份及分布式搜索。
reinforcement-learning-an-introduction - Sutton & Barto《强化学习: 介绍 (第2版)》的Python实现
Reinforcement LearningPythonSutton & Barto算法图像分析Github开源项目
该项目提供了Sutton和Barto所著《Reinforcement Learning: An Introduction(第2版)》的Python代码实现,涵盖各章节的示例和性能分析。项目专注于强化学习核心算法的实现和优化,适合打算深入了解和应用强化学习技术的开发者与研究人员。欢迎交流、贡献代码,提升项目质量与完整性。
pykaldi - Python 语音识别工具
PyKaldiKaldi语音识别PythonOpenFstGithub开源项目
PyKaldi是一款Python脚本工具,为Kaldi语音识别工具包和OpenFst库提供了易用的Python包装器。它适用于语音识别研究人员和专业人士,可在Python中调用低级Kaldi函数、操作对象,并实现新工具。PyKaldi是对Kaldi的有力补充,其高层次的应用模块如ASR、对齐和分段,使大部分Python程序员都能上手。如果需要在Python中操控Kaldi和OpenFst对象,PyKaldi是一个理想的选择。
openlrc - 使用 Whisper 和 LLM(GPT、Claude 等)将语音转录并翻译成 LRC 文件的Python库
Open-LyricsPython语音转录翻译LRC 文件Github开源项目
OpenLRC是一个Python库,利用faster-whisper进行语音转录,并使用LLM如OpenAI-GPT和Anthropic-Claude将其翻译和优化支持.lrc字幕文件生成。该库提供上下文感知的翻译以提升质量,并支持生成双语字幕和自定义API端点。适用于音频和视频文件的转录和翻译,支持多种翻译引擎和输出格式,安装和使用简便。
LLM-PowerHouse-A-Curated-Guide-for-Large-Language-Models-with-Custom-Training-and-Inferencing - 大型语言模型的定制训练和推理指南
LLM PowerHouse自然语言处理机器学习深度学习PythonGithub开源项目
LLM-PowerHouse项目为开发人员、研究人员和爱好者提供一站式指南,通过定制化训练和推理优化大型语言模型(LLMs)。包括基础知识、先进技术、模型压缩、优化策略和实例代码,适用于高效智能的自然语言理解应用。
carefree-creator - 开源AI创作工具,集成多种生成模型
carefree-creatorAI绘图PythonpytorchGPUGithub开源项目
`carefree-creator`是一个开源的AI创作工具,集成了多种生成模型,基于`carefree-learn`构建,支持Python>=3.8和pytorch>=1.12.0。项目提供多种节省GPU RAM的加载方式,并支持CLI和Docker安装。详细的硬件要求与使用指南请见Wiki页面。
carefree-drawboard - 纯Python构建的绘图和图像处理平台
carefree-drawboardPython前端安装图像处理插件Github开源项目
carefree-drawboard是一个利用纯Python构建的高性能绘图和图像处理平台。它支持插件化的功能,包括高斯模糊和Stable Diffusion等图像处理及生成。通过简单的安装和初始化命令,可以快速创建和运行定制化的绘图应用。项目虽然处于早期阶段,但提供定期更新和全面的文档支持,非常适合对AI和图像处理有兴趣的开发者。
graph-cut-ransac - 高效鲁棒性估计算法,支持同源矩阵、基础矩阵及6D姿态估计
Graph-Cut RANSACOpenCVPythonC++Computer VisionGithub开源项目
Graph-Cut RANSAC是一种用于同源矩阵、基础矩阵和6D姿态估计的鲁棒性算法。它已包括在OpenCV中,并支持通过pip安装Python封装,或通过CMake编译C++源码。该算法的应用示例可通过Jupyter Notebook进行演示,主要依赖Eigen、CMake和OpenCV库,适用于现代编译器。
ComfyUI-to-Python-Extension - 翻译ComfyUI工作流为Python脚本
ComfyUI-to-Python-ExtensionComfyUIPython工作流转换图像生成Github开源项目
ComfyUI-to-Python-Extension工具可以将ComfyUI工作流程转换为Python代码,简化将设计转化为代码执行的过程。它适用于数据科学家、软件开发人员和AI爱好者,支持从创建应用到大规模图像生成任务的实现。现在项目还支持自定义节点,增强了脚本的灵活性和扩展性。
God-Level-AI - 涵盖机器学习与个人品牌的视频课程
god level AIPython机器学习深度学习数据结构与算法Github开源项目
该项目旨在帮助成为顶尖1%数据与AI专家的个人,通过视频课程和文本内容进行科学方法、算法和系统构建训练。无论是领导者、专业人士还是学生,都需付出相应努力才能达到顶峰。项目内容涵盖Python、数据结构与算法、深度学习、MLOps和个人品牌塑造等,提供全面的知识和实用技巧。
boxx - 高效Python工具箱,助力科学计算和计算机视觉调试
Box-XPython计算机视觉科学计算工具箱Github开源项目
Box-X是一款为Python开发者设计的高效构建与调试工具箱,特别适用于科学计算和计算机视觉。它兼容Linux、macOS和Windows平台,并支持Python 2/3环境(包括CPython、IPython、Spyder和Notebook)。主要功能包括变量打印和传输、矩阵及张量可视化、复杂结构的树状显示以及多进程加速。用户可通过Binder在线互动教程或本地Jupyter Notebook查看详细教程,推荐通过源代码安装以确保版本的及时更新。
visionscript - 抽象编程语言,用于快速执行计算机视觉任务
VisionScript计算机视觉Python对象检测图像分类Github开源项目
VisionScript是一个基于Python的编程语言,专门用于快速执行目标检测、分类和分割等常见计算机视觉任务。其简洁的语法允许用户通过少量代码完成复杂的视觉操作,并支持在交互式网络笔记本中运行。VisionScript兼容多个知名模型,包括CLIP、YOLOv8和BLIP,适合新手上手。无论是执行零样本分类,还是在照片中替换特定对象,VisionScript均能提供高效解决方案。
SimSwap - 支持高保真图像和视频处理的换脸框架
SimSwap人脸交换ACM会议高分辨率数据集PythonGithub开源项目
SimSwap框架实现任意换脸,支持高保真图像和视频处理。采用单一训练模型,无需再次训练。适用于学术和技术用途,提供详细的训练与测试代码。支持高分辨率数据集VGGFace2-HQ,定期更新进展。欢迎工程师加入团队。高质量案例视频可在Google Drive和Bilibili观看。
SAM-Adapter-PyTorch - 提升复杂场景下图像分割效果的开源项目
SAM-AdapterSegment AnythingICCVPythonPyTorchGithub开源项目
SAM-Adapter项目提升了SAM在伪装、阴影和医疗图像分割中的表现。最新的更新支持更强大的SAM2骨干网络,并提供多种预训练模型和数据集下载链接,便于快速上手。该项目在IEEE/CVF国际计算机视觉会议上展示,并包含详细的环境配置和训练指南,方便研究人员进行深度学习任务。
menpo - 图像与网格数据的导入、操作和可视化工具
MenpoPython机器学习计算机视觉数据处理Github开源项目
Menpo项目提供了一套Python库,简化图像和网格数据的导入、操作和可视化。作为机器学习和计算机视觉常用工具,Menpo支持标注数据的操作,使图像遮罩、裁切和对齐等任务变得简单。支持多个Python版本,建议使用conda安装,以解决复杂的依赖问题。Menpo还包含menpofit、menpo3d和menpodetect等附加库,以扩展功能。用户可以通过Jupyter Notebooks学习并在线浏览示例笔记本。
errbot - 支持多聊天平台和插件的Python聊天机器人
ErrbotchatbotPython开源软件GPLv3Github开源项目
Errbot是一种以Python编写的开源聊天机器人,支持在多种聊天平台(如IRC、Telegram和XMPP)中运行脚本。通过插件,Errbot还能扩展支持Slack、Discord和Gitter等平台。该项目采用GPL v3许可证发布,功能易于扩展,支持从聊天中配置插件、管理聊天室、和安全控制列表。开发者可以通过简单的Python代码编写新插件,利用存储、Webhook和多种参数解析等功能。
langchain-experiments - 实验与实现LangChain库的高级大语言模型应用
LangChainGPT-3.5 TurboFAISSPythonOpenAIGithub开源项目
本项目展示了如何利用先进的语言模型(如OpenAI的GPT-3.5 Turbo和即将发布的GPT-4)以及FAISS库,创建搜索YouTube视频转录的数据库,进行相似度查询,并回答用户问题。项目覆盖LangChain框架的核心模块,包括模型、提示、记忆、索引、链条和代理,适用于开发客户支持聊天机器人、内容生成器、数据分析工具和智能搜索引擎等应用。
vectordb - 精简而强大的Python向量数据库,支持本地、内部和云端部署,全面支持CRUD操作
VectorDBJina AIDocArrayPythongRPCGithub开源项目
`vectordb` 是一款轻量级的Python向量数据库,支持本地、内部和云端部署。它具有全面的CRUD操作和扩展选项,包括分片和复制,可适应各种环境。结合DocArray的检索能力和Jina的扩展性能,vectordb提供了简洁而强大的用户体验。同时,它支持gRPC、HTTP和WebSocket等通信协议,能在多种场景中灵活应用,极大地方便了开发人员。
RecBole - 基于Python和PyTorch的推荐系统框架,支持91种算法和43个数据集
RecBole推荐系统PythonPyTorchRecBole2.0Github开源项目
RecBole是一个基于Python和PyTorch的推荐系统框架,旨在高效地复现和开发推荐算法。该框架包含91种算法,涵盖通用推荐、序列推荐、情境推荐和知识推荐四大类。RecBole支持43个基准数据集,并提供GPU加速和标准评估协议以满足研究需求。最新版本增加了扩展包,提升用户体验,并支持多GPU和混合精度训练。
DeepDanbooru - AI动漫图片标签预测工具
DeepDanbooru动漫图像标签PythonTensorflow训练项目Github开源项目
DeepDanbooru是一个用Python实现的AI工具,用于对动漫风格图片进行标签预测。通过TensorFlow进行训练和评估,支持使用Danbooru数据集或自定义数据集进行操作。
crepe - 基于深度卷积神经网络的单音音高跟踪器
CREPE深度卷积神经网络音高跟踪Python音频处理Github开源项目
CREPE是一款基于深度卷积神经网络的单音音高跟踪器,直接处理时域波形输入,性能优于流行的音高跟踪器如pYIN和SWIPE。用户可通过PyPI安装,并利用预训练模型进行音高预测,结果包含时间戳、预测音高和置信度。CREPE支持时间步长调整、模型容量选择和时间序列平滑,适用于人声和乐器音频,并支持批量处理。
pygod - 图形异常检测的Python库
PyGODPython图异常检测PyTorchGraph Outlier DetectionGithub开源项目
PyGOD是一个用于图形异常检测的Python库,支持超过10种检测算法,可应用于社交网络和安全系统中的异常检测。该库基于PyTorch和PyTorch Geometric,提供一致的API、详细的文档和互动示例,支持节点、边和图级别的检测任务。与PyG数据对象完全兼容,并具备处理大规模图数据的扩展能力,简化了图数据的处理流程。
nitrain - 医学图像采样与增强的跨平台Python库
Nitrain医学影像AI框架Python深度学习Github开源项目
Nitrain是一个高层次的Python库,用于简化医学图像采样和增强,支持多个框架(如Torch、TensorFlow、Keras)。该项目旨在简化医疗成像AI模型的训练过程,通过详细教程和文档,用户可以迅速上手并进行模型的训练和可视化。Nitrain提供合理的默认设置,使得模型训练变得更加简单,并且支持多个依赖包如ANTS。
tensorly - Python张量学习库,兼容多种计算后端
TensorLyPython张量分解机器学习张量代数Github开源项目
TensorLy是一个专注于简化张量学习的Python库,支持张量分解、张量学习和张量代数操作。其后端系统兼容NumPy、PyTorch、JAX、TensorFlow和CuPy,可在CPU或GPU上执行大规模计算。安装方便,仅需使用pip或conda命令,且提供详尽的文档和Jupyter Notebooks示例,方便用户快速入门。这个工具不仅适合学术研究,还为开发者提供了丰富的API,欢迎通过GitHub进行贡献。
tensorforce - 适用于研究与实操的模块化深度强化学习 TensorFlow 框架
Tensorforce深度强化学习TensorFlow开源框架PythonGithub开源项目
Tensorforce 是一个开源的深度强化学习框架,基于TensorFlow构建,具有模块化设计,支持多种算法和环境适配,确保模型移植与编程语言无关。
handson-ml - Python机器学习基础与实践指南
Machine LearningPythonScikit-LearnTensorFlowJupyterGithub开源项目
该项目通过Python教授机器学习基本原理,包含《Hands-on Machine Learning with Scikit-Learn and TensorFlow》书中的示例代码和习题解答。用户可以使用Colab、Binder和Deepnote在线体验这些notebooks,或通过Anaconda在本地安装项目进行学习。详细介绍了安装步骤和常见问题解决方法,帮助用户理解和应用机器学习技术。