Project Icon

pandarallel

简化Pandas操作并行化的Python库

Pandaral·lel是一个Python库,通过简单的代码修改实现Pandas操作的并行化处理。它利用多核CPU加速数据处理,并提供进度条显示。适用于Mac、Linux和Windows系统,可优化数据分析工作流程。目前该开源项目正在寻找新的维护者。

cudf - 基于GPU的高性能DataFrame库 实现快速数据处理与分析
GPUGithubRAPIDScuDFpandas开源项目数据处理
cuDF是一个基于GPU的DataFrame库,提供数据加载、连接、聚合和过滤等功能。该库利用libcudf和Apache Arrow列式格式,为开发者提供GPU加速的pandas兼容API。cuDF既可以直接使用,也可以作为pandas的无代码修改加速器,完全支持pandas API,在可能的情况下使用GPU运算,必要时回退到pandas。这使得cuDF在处理大规模数据时表现出色,适合各类数据科学和机器学习项目。
mango - 机器学习超参数并行优化库
GithubMango并行优化开源项目搜索空间调度器超参数调优
Mango是一个专注于机器学习超参数优化的Python库。它支持在复杂搜索空间中进行并行优化,适用于连续、离散和类别值。该库特点包括简便的搜索空间定义、先进的无梯度优化算法、模块化调度设计和应用层故障检测。Mango可部署于本地、集群或云环境,在普通硬件上也能实现良好扩展性。通过在实际生产环境中的持续应用和改进,Mango不断增添新功能。
PiPPy - PyTorch模型自动化管道并行工具
GithubPiPPyPyTorchpipeline parallelism并行计算开源项目模型扩展
PiPPy是一个为PyTorch模型提供自动化管道并行功能的开源工具。它通过自动拆分模型代码和处理复杂拓扑结构,简化了管道并行的实现过程。PiPPy支持跨主机并行、与其他并行方案结合,以及多种调度策略。该工具能够帮助研究人员和开发者在不大幅修改原有代码的情况下,实现PyTorch模型的高效扩展。
pytimetk - 快速高效的Python时间序列分析库
GithubPython库pytimetk可视化开源项目数据处理时间序列分析
pytimetk是一个高效的Python时间序列分析库,通过简洁语法和优化计算简化了时间序列操作和可视化。相比pandas,它提供3-3500倍的速度提升,并减少代码复杂度。主要功能包括快速时间聚合、便捷绘图、日历特征提取和异常检测等。pytimetk适用于商业预测和科学研究,为时间序列分析提供了全面的解决方案。
delta-sharing - 开放协议实现跨平台大规模数据实时共享
Delta SharingGithub云存储开放协议开源项目数据交换数据共享
Delta Sharing是一个开放协议,用于安全实时交换大型数据集。它支持跨平台实时数据共享,使用REST API安全共享云数据集,通过S3、ADLS或GCS等云存储系统传输数据。用户可直接使用pandas、Tableau、Apache Spark等工具访问共享数据,无需部署特定计算平台。该协议简化了数据提供和使用流程,使数据共享更加高效便捷。
threadpoolctl - Python库优化科学计算线程池资源管理
GithubPython库threadpoolctl并行计算开源项目性能优化线程池控制
threadpoolctl是一个Python库,专门用于管理科学计算和数据分析库中的线程池资源。它能够精确控制BLAS、OpenMP等常用库的线程数量,有效解决嵌套并行计算中的资源过度分配问题。通过简洁的接口,threadpoolctl允许开发者灵活调整线程使用,从而优化计算效率,提升并行性能。该库支持多种BLAS实现和OpenMP运行时,适用范围广泛,是科学计算领域的实用工具。
Parsr - 清理和解析文档,生成结构化数据
APIDockerGithubParsr开源项目数据解析文档处理
Parsr是一款轻量级的文档清理、解析和提取工具,支持图像、PDF、DOCX和EML格式。能够生成JSON、Markdown、CSV/Pandas DF或TXT格式的数据,为分析师、数据科学家和开发者提供结构化的标签信息集,可用于数据录入和文档分析自动化等应用。功能包括文档清理、层次结构重建、标题检测、表格、列表、目录、页码、页眉页脚和链接检测等。通过Docker镜像可以快速安装和运行,并提供GUI工具以可视化结果。
pmdarima - Python时间序列分析库 支持自动ARIMA建模和多种统计测试
GithubPythonpmdarima开源项目时间序列分析统计库自动ARIMA
pmdarima是一个Python统计库,旨在增强时间序列分析能力。它实现了类似R语言auto.arima的功能,提供多种统计测试、时间序列工具、转换器和特征提取器。该库支持季节性分解、交叉验证,并包含丰富的内置数据集。基于statsmodels构建,pmdarima采用类scikit-learn的接口设计,便于用户构建和部署时间序列模型。
xorbits - 轻松扩展数据科学与机器学习工作负载的开源框架
GithubPython APIXorbits大数据处理开源计算框架开源项目机器学习
Xorbits 是一款开源计算框架,旨在简化数据科学和机器学习任务的扩展。从数据预处理到模型部署,Xorbits 支持整个流程。它可以利用多核或GPU加速单机计算,或扩展至数千台机器,以处理TB级数据和大型模型的训练。Xorbits 提供兼容 pandas、NumPy、PyTorch 和 XGBoost 等库的 Python API,无需深入了解基础设施即可完成工作负载扩展。
mlx_parallm - 为Apple Silicon设备实现高效并行推理
Apple SiliconGithubMLX ParaLLM并行推理开源项目批处理KV缓存语言模型
MLX ParaLLM是一个为Apple Silicon设备开发的开源项目,利用MLX框架实现批处理KV缓存技术,从而提高并行推理效率。项目支持Meta-Llama、Phi-3和Gemma等多种模型,兼容量化和float16格式。通过batch_generate方法,MLX ParaLLM实现自动填充、提示模板格式化和多种采样策略,适用于大规模并行文本生成任务。
项目侧边栏1项目侧边栏2
推荐项目
Project Cover

豆包MarsCode

豆包 MarsCode 是一款革命性的编程助手,通过AI技术提供代码补全、单测生成、代码解释和智能问答等功能,支持100+编程语言,与主流编辑器无缝集成,显著提升开发效率和代码质量。

Project Cover

AI写歌

Suno AI是一个革命性的AI音乐创作平台,能在短短30秒内帮助用户创作出一首完整的歌曲。无论是寻找创作灵感还是需要快速制作音乐,Suno AI都是音乐爱好者和专业人士的理想选择。

Project Cover

白日梦AI

白日梦AI提供专注于AI视频生成的多样化功能,包括文生视频、动态画面和形象生成等,帮助用户快速上手,创造专业级内容。

Project Cover

有言AI

有言平台提供一站式AIGC视频创作解决方案,通过智能技术简化视频制作流程。无论是企业宣传还是个人分享,有言都能帮助用户快速、轻松地制作出专业级别的视频内容。

Project Cover

Kimi

Kimi AI助手提供多语言对话支持,能够阅读和理解用户上传的文件内容,解析网页信息,并结合搜索结果为用户提供详尽的答案。无论是日常咨询还是专业问题,Kimi都能以友好、专业的方式提供帮助。

Project Cover

讯飞绘镜

讯飞绘镜是一个支持从创意到完整视频创作的智能平台,用户可以快速生成视频素材并创作独特的音乐视频和故事。平台提供多样化的主题和精选作品,帮助用户探索创意灵感。

Project Cover

讯飞文书

讯飞文书依托讯飞星火大模型,为文书写作者提供从素材筹备到稿件撰写及审稿的全程支持。通过录音智记和以稿写稿等功能,满足事务性工作的高频需求,帮助撰稿人节省精力,提高效率,优化工作与生活。

Project Cover

阿里绘蛙

绘蛙是阿里巴巴集团推出的革命性AI电商营销平台。利用尖端人工智能技术,为商家提供一键生成商品图和营销文案的服务,显著提升内容创作效率和营销效果。适用于淘宝、天猫等电商平台,让商品第一时间被种草。

Project Cover

AIWritePaper论文写作

AIWritePaper论文写作是一站式AI论文写作辅助工具,简化了选题、文献检索至论文撰写的整个过程。通过简单设定,平台可快速生成高质量论文大纲和全文,配合图表、参考文献等一应俱全,同时提供开题报告和答辩PPT等增值服务,保障数据安全,有效提升写作效率和论文质量。

投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号