#Python库

PyEMD - 全面高效的Python经验模态分解库
PyEMD经验模态分解信号处理Python库Github开源项目EMD
PyEMD是一个功能全面的Python库,专注于实现经验模态分解(EMD)算法及其变体。该库支持多种EMD变种,如集合EMD(EEMD)和完整集合EMD(CEEMDAN),并提供多样化的配置选项。PyEMD支持多种样条函数、停止准则和极值插值方法,适用于信号处理和数据分析。此外,PyEMD还包含二维EMD和即时编译EMD等实验性功能,为研究提供了更多可能性。
george - Python高斯过程回归库
George高斯过程回归Python库机器学习数据分析Github开源项目
George是一个开源的Python库,专注于高斯过程回归。该库提供高效实现,支持多种操作系统,采用MIT许可证。George在GitHub上维护,具有完善的文档和测试流程,包括持续集成和代码覆盖率检查。这个工具适用于需要处理复杂回归问题的数据分析工作。
text_blind_watermark - 文本盲水印嵌入与提取工具
文本盲水印隐写技术信息隐藏Python库数据安全Github开源项目
text_blind_watermark是一个Python开源项目,专门用于文本盲水印的嵌入和提取。该工具能在保持原文可读性的同时,将隐藏信息嵌入文本中。支持微信、钉钉等多个平台,提供简单的API接口。项目包含详细文档和示例,适用于需要在文本中加入不可见信息的开发者。该项目提供多种嵌入模式,包括TextBlindWatermark和TextBlindWatermark2两种算法,支持自定义密码和字符类型,增强了水印的隐蔽性和安全性。
locopy - 用于Redshift和Snowflake的Python ETL数据处理库
数据加载ETL处理Amazon RedshiftSnowflakePython库Github开源项目
locopy是一个Python库,用于简化Amazon Redshift和Snowflake的ETL处理。它支持数据加载、复制和卸载操作,提供S3桶和内部存储的数据传输功能。该库兼容多种数据库驱动,支持Python 3.9至3.11版本。locopy提供简洁的API接口,适用于数据工程师和分析师的日常ETL任务。
uniplot - 终端绘图工具,高分辨率Unicode可视化
Uniplot终端绘图数据可视化Unicode绘图Python库Github开源项目
Uniplot是一款基于Unicode字符的终端绘图工具,提供4倍于ASCII的分辨率。它具有简洁API、交互模式和彩色显示功能,可快速处理百万级数据点。Uniplot仅依赖NumPy,支持折线图、散点图、直方图及时间序列数据绘制。这使其成为数据科学和机器学习CI/CD流程中理想的可视化解决方案,尤其适用于无图形界面环境。该工具为数据科学家和机器学习工程师提供了在终端环境中进行高质量数据可视化的能力。它不仅适用于日常数据分析,还可集成到自动化流程中,帮助快速识别和诊断问题。Uniplot的设计理念是简单易用且功能强大,使其成为需要在命令行界面进行数据探索和结果展示的场景下的理想选择。
browserforge - Python库生成真实浏览器指纹和HTTP请求头
BrowserForge浏览器指纹用户代理请求头生成Python库Github开源项目
BrowserForge是一个Python库,用于生成模拟真实网络流量的浏览器指纹和HTTP请求头。该库利用贝叶斯生成网络技术,支持多种浏览器、操作系统和设备类型。BrowserForge提供简洁的API,可快速生成符合特定约束的指纹和请求头,适用于网络爬虫和自动化测试等场景。此外,BrowserForge能与Playwright和Pyppeteer等自动化工具集成,有助于实现更精确的浏览器模拟。
kglab - 简化Python知识图谱构建的开源库
知识图谱Python库RDF图数据科学开源项目Github
kglab是一个构建知识图谱的Python开源库,支持Python 3.7+。它集成了Pandas、NetworkX、RAPIDS等多个工具库,提供简单抽象层简化知识图谱的创建、加载、测量和序列化。适用于数据科学和图分析领域,项目持续更新并欢迎社区贡献。
Py-Boost - Python实现的GPU加速梯度提升决策树库
梯度提升GPU加速多输出训练ONNX兼容Python库Github开源项目
Py-Boost是一个Python实现的GPU加速梯度提升决策树库。该项目提供简洁接口,支持GPU训练和推理,易于定制。特色功能包括SketchBoost算法高效处理多输出任务,以及ONNX格式支持。Py-Boost为研究和开发人员提供了探索梯度提升方法的灵活工具,同时保持了较高的运行效率。
mlxtend - Python机器学习日常任务扩展库
mlxtend机器学习Python库数据科学开源软件Github开源项目
mlxtend扩展了Python的机器学习功能,专注于提供数据科学日常任务中的实用工具。库中包含多种分类器、集成方法和决策区域可视化功能。它支持pip和conda安装,适合机器学习研究和实践。mlxtend提供详细文档和示例,有助于简化数据科学工作流程。
thefuzz - Python模糊字符串匹配库 基于Levenshtein距离算法
TheFuzz模糊字符串匹配Levenshtein距离Python库字符串相似度Github开源项目
thefuzz是一个Python模糊字符串匹配库,基于Levenshtein距离算法。它提供简单比率、部分比率、令牌排序比率等多种匹配方法。该库支持Python 3.8及以上版本,可计算字符串相似度并从选项列表中提取最匹配结果。thefuzz适用于文本处理和搜索等多种场景,是一个功能强大且易用的开源工具。
python-telegram-bot - Python异步Telegram Bot API开发库
python-telegram-botTelegram Bot APIPython库异步接口机器人开发Github开源项目
python-telegram-bot是一个纯Python实现的Telegram Bot API异步接口库。支持Python 3.8+,提供便捷方法和高级类,简化Telegram机器人开发。兼容Telegram Bot API 7.8,具备异步处理、类型注解和可定制接口等特性。丰富的文档和示例有助于开发者快速上手。
yfinance - Python库实现高效获取雅虎财经市场数据
yfinanceYahoo Finance股票数据Python库金融数据Github开源项目
yfinance是一个Python库,通过线程化方式从雅虎财经API获取市场数据。它能够下载股票信息、历史数据、财务报表、持股情况和分析师推荐等多种数据。yfinance支持处理单个或多个股票代码,提供灵活的数据获取选项。这个库主要用于金融研究和教育目的,使用时需遵守雅虎的相关条款。
konoha - 多功能日语分词器集成工具
Konoha日语分词器自然语言处理Python库APIGithub开源项目
Konoha是一个集成多种日语分词器的Python库,支持MeCab、KyTea、Janome等主流工具。它提供统一接口,便于切换不同分词器,还包含基于规则的分词器和句子分割器。Konoha支持远程文件和云存储,适用于各种日语自然语言处理任务。
scikit-lego - 为scikit-learn提供自定义扩展的开源库
scikit-lego机器学习Python库数据科学开源项目Github
scikit-lego是一个开源Python库,为scikit-learn提供自定义转换器、指标和模型。该项目最初由荷兰多家公司合作开发,现已获得全球贡献。scikit-lego严格遵循scikit-learn标准,提供高质量代码和测试。它包含多种新特性,如自定义数据集、pandas工具、线性模型、朴素贝叶斯、混合模型、元估计器、预处理工具、模型选择方法和评估指标,旨在增强机器学习工作流程的灵活性和功能性。
name-dataset - 跨国姓名数据库提供全面的名字和姓氏信息分析
名字数据库Python库个人信息数据分析Facebook数据Github开源项目
names-dataset是一个大型姓名数据库项目,涵盖105个国家的730K个名字和983K个姓氏。项目提供姓名的流行度、国家分布和性别信息,支持多语言和多地区查询。用户可借此了解特定姓名在不同国家的使用情况,有助于人名分析和跨文化研究。该项目为姓名研究提供了丰富的数据资源,包括姓名的流行度排名、地理分布和性别关联。通过简单的Python接口,研究人员和开发者可以轻松获取和分析这些信息,为人名学、人口统计学和社会学研究提供数据支持。数据基于Facebook用户信息。
nlu - 强大而简洁的自然语言处理Python库
NLUSpark NLP自然语言处理预训练模型Python库Github开源项目
NLU是一款功能丰富的Python库,整合了1000多个预训练模型,支持100多种语言的文本挖掘任务。该库将复杂的NLP任务简化为单行代码操作,大大提高了文本分析的效率。NLU兼容多种数据格式,包括Pandas、Spark和Modin等数据框架,以及numpy数组和字符串列表。从词嵌入到情感分析、命名实体识别,NLU提供了全面的NLP功能,是自然语言处理领域的重要工具。
matminer - 材料科学数据挖掘的开源利器
matminer材料科学数据挖掘Python库开源工具Github开源项目
matminer是一个面向材料科学领域的开源数据挖掘库。该项目支持Python 3.9+,提供数据集和特征提取工具,便于研究人员进行材料数据分析。matminer包含详细文档、示例仓库和支持论坛,涵盖数据检索、特征化和数据集管理功能。此外,项目还提供了相关工具如automatminer和matbench,进一步扩展了其在材料科学研究中的应用范围。作为开源项目,matminer鼓励用户在研究中引用相关论文,并提供了方便的citation()方法来获取引用信息,体现了其学术价值和在材料科学社区中的影响力。
num2words - Python数字转文字多语言转换库
num2words数字转换多语言支持开源项目Python库Github
num2words是一个Python库,可将数字转换为多种语言的文字表述。支持基数、序数、年份和货币等转换模式,覆盖50多种语言。提供命令行和代码调用方式,安装使用简便。该项目基于pynum2word开发,由Savoir-faire Linux维护。适用于需要将数字转换为文字的场景。
sktime - 多功能时间序列分析和预测库
sktime时间序列分析机器学习Python库统一接口Github开源项目
sktime是一个开源的Python时间序列分析库,为多种时间序列学习任务提供统一接口。它支持时间序列分类、回归、聚类、标注和预测等功能,并提供专门的时间序列算法和兼容scikit-learn的工具。sktime还整合了多个相关库的接口,便于用户在不同时间序列任务间迁移算法。
questionary - 简化命令行界面开发的Python库
Questionary命令行界面Python库用户输入交互式提示Github开源项目
Questionary是一个用于构建命令行界面的Python库。它支持多种输入类型,包括文本、密码、文件路径、确认、选择等。该库设计简洁,仅需少量代码即可创建交互式提示。Questionary被广泛应用于多个项目中,并获得Rasa等知名项目的采用。库提供了完善的文档和示例,便于开发者快速掌握并开发出用户友好的命令行应用。
stk - 强大的Python分子构建与操作库
stkPython库分子构建分子设计数据库Github开源项目
stk是一个功能丰富的Python库,用于构建和操作复杂分子结构。它支持自动分子设计、分子数据库创建和属性分析。stk提供灵活API,适用于多种化学和材料科学研究。该库已应用于有机笼、共价有机骨架和共轭聚合物等领域的设计与优化研究。
pydlm - 基于Python的贝叶斯时间序列建模库
PyDLM时间序列建模贝叶斯动态线性模型数据分析Python库Github开源项目
pydlm是一个Python时间序列建模库,基于贝叶斯动态线性模型。它提供了快速的模型拟合和推断,包含趋势、季节性和动态回归等灵活组件。支持前向过滤、后向平滑和长期预测,并具有简洁的API。pydlm适用于构建复杂时间序列模型,进行数据分析和预测。
eurybia - 开源Python库助力数据和模型偏移检测
Eurybia数据漂移模型漂移机器学习Python库Github开源项目
Eurybia是一个Python开源库,专注于检测数据和模型偏移,并在模型部署前进行数据验证。该工具生成详细的HTML报告,支持模型性能监控、AI系统审核和治理优化。通过直观的可视化和动态报告,Eurybia简化了数据特征和偏移分析,促进了团队协作和跨部门沟通。
redlines - 直观展示文本差异的Python工具
Redlines文本比较差异标记Python库MarkdownGithub开源项目
Redlines是一个Python库,能够生成Markdown格式的文本差异对比结果。它采用删除线和下划线标记修改,类似Word的修订功能,这种方式更适合法律从业者使用,在长文本中也更为简洁。Redlines基于SequenceMatcher算法比对单词差异,并提供命令行工具在终端中直观展示文本变化。
functime - 高性能时间序列机器学习Python库
时间序列机器学习全局预测特征提取PolarsPython库Github开源项目
functime是一个面向大规模时间序列数据分析的Python库,提供高效的全局预测和特征提取功能。它支持时间序列预处理、交叉验证和性能评估,通过惰性Polars变换实现优化。该库能快速处理海量时间序列,支持外生特征和自动化调优,并集成LLM代理用于预测分析,适用于各种机器学习和数据分析任务。
textdistance - Python文本距离和相似度计算库
TextDistancePython库字符串比较算法相似度计算Github开源项目
TextDistance是一个计算序列距离和相似度的Python库。它实现了30多种算法,包括编辑距离、基于令牌、基于序列、基于压缩和语音等类型。该库支持纯Python实现,可比较多个序列,并提供NumPy加速选项。TextDistance接口简单灵活,适用于各种文本分析和字符串比较任务。
datamol - 基于RDKit的高效分子处理Python库
datamol分子处理RDKitPython库化学信息学Github开源项目
datamol是一个基于RDKit的Python库,专为简化分子处理而设计。它提供简洁的API、高效的并行处理和现代IO支持,同时保持与RDKit的兼容性。通过良好的默认设置,datamol简化了分子标准化、构象生成和特征计算等任务,使分子操作更加便捷高效。该库支持远程路径读写多种格式文件,适用于大规模数据处理。datamol的设计理念是在RDKit基础上提供更简单的接口,同时保持性能和灵活性,使其成为分子信息学研究和开发的有力工具。
asent - 基于规则的多语言情感分析库
Asent情感分析Python库SpaCy可视化Github开源项目
Asent是一个基于规则的Python情感分析库,使用SpaCy构建。该项目提供模块化规则集,支持自定义分析方法,如否定词识别。Asent集成可视化功能,便于解释模型预测结果。支持多语言文本极性分析,输出详细分析报告。Asent具有安装简便、使用灵活的特点,适用于各类文本情感分析任务。Asent受Vader启发,但采用更灵活的规则设计,实现更精细的情感分析。
scikit-opt - Python群体智能优化算法库
scikit-opt优化算法Python库智能算法遗传算法Github开源项目
scikit-opt是一个Python优化库,实现了多种群体智能算法,如遗传算法、粒子群优化和模拟退火。该库支持用户自定义函数、GPU加速和多种加速方式,可用于解决各类优化问题。scikit-opt具有易用性强、功能丰富的特点,适合数据科学家和研究人员使用。
quantulum3 - 智能提取文本中的数量和单位
quantulum3Python库数量提取单位解析自然语言处理Github开源项目
quantulum3是一个强大的Python库,专门用于从非结构化文本中智能提取数量、测量值及其单位。该库利用GloVe向量表示和维基百科页面进行单位消歧,支持290多个单位和75个实体,能够解析拼写数字、范围和不确定性。quantulum3还提供实体、单位和数量的导出导入功能,支持自定义单位和实体,具备多语言支持,并可通过训练分类器优化消歧效果。
python-pptx - Python库实现PowerPoint文件创建与编辑
python-pptxPowerPointPython库演示文稿生成文件分析Github开源项目
python-pptx是一个用于处理PowerPoint (.pptx)文件的Python库。该库支持创建、读取和更新演示文稿,可从数据库查询、分析输出或JSON数据生成幻灯片。它适用于包括macOS和Linux在内的多种平台,无需安装PowerPoint软件。此外,python-pptx还能分析PowerPoint文件以提取文本和图像,简化复杂幻灯片的自动生成过程。
md2pdf - 轻松将Markdown转换为样式化PDF文档
md2pdfMarkdownPDF转换命令行工具Python库Github开源项目
md2pdf是一个开源工具,用于将Markdown文件转换为样式化的PDF文档。它提供命令行界面和Python库接口,支持自定义CSS样式和Markdown扩展。用户可通过pip安装或使用Docker容器。基于Weasyprint构建,md2pdf适合开发者和写作者将Markdown转换为高质量PDF。支持外部CSS样式表,便于生成格式化的PDF文档,适用于报告、技术文档或电子书制作。
clinicadl - 开源神经影像数据深度学习处理框架
ClinicaDL深度学习神经影像学BIDS格式Python库Github开源项目
ClinicaDL是Clinica的深度学习扩展,专注于神经影像数据处理。该开源框架支持BIDS格式,提供可重复的数据预处理、模型训练和评估流程。ClinicaDL兼容macOS和Linux系统,安装简便。框架配有在线教程,便于快速入门。它旨在促进神经影像学研究的标准化和可重复性,为该领域的发展提供有力工具。
rlax - JAX驱动的强化学习算法构建库
RLax强化学习JAX深度学习Python库Github开源项目
RLax是基于JAX的强化学习工具库,提供实现智能体所需的核心模块。支持价值估计、分布式价值函数、通用价值函数和策略梯度等功能,适用于在线和离线学习。借助JAX实现即时编译,RLax能在多种硬件上高效运行,为开发者提供灵活的工具构建强化学习算法。
editdistance - 快速计算编辑距离的Python开源库
editdistance编辑距离Levenshtein距离Python库字符串比较Github开源项目
editdistance是一个开源的Python库,专门用于快速计算Levenshtein距离(编辑距离)。基于C++和Cython实现,采用Heikki Hyyrö提出的位并行算法,性能优异。该库不仅支持字符串,还可处理任何可哈希对象序列,具有广泛适用性。与同类库相比,editdistance在计算速度上表现突出,同时保持了使用简便性。支持跨平台安装,API设计清晰,便于集成到各类Python项目中。
pypdfium2 - Python PDF处理库 支持渲染检查操作和创建
pypdfium2PDF处理Python库PDFium开源Github开源项目
pypdfium2是Python 3的PDFium绑定库,实现PDF文档的渲染、检查、操作和创建。它提供辅助函数简化常见任务,支持多平台安装和预构建包。该库保留了PDFium/ctypes API访问,满足不同开发需求。