#大数据处理

langchain-extract - 基于FastAPI、LangChain和Postgresql的web服务器,提供强大的LLM数据提取功能
LangChain ExtractFastAPI提取信息大数据处理Web服务器Github开源项目
LangChain Extract: 基于FastAPI、LangChain和Postgresql的web服务器,提供强大的LLM数据提取功能。支持REST API、OpenAPI文档和JSON Schema,允许高效管理数据提取任务。提供示例API供快速测试和实验。
xorbits - 轻松扩展数据科学与机器学习工作负载的开源框架
Xorbits开源计算框架机器学习Python API大数据处理Github开源项目
Xorbits 是一款开源计算框架,旨在简化数据科学和机器学习任务的扩展。从数据预处理到模型部署,Xorbits 支持整个流程。它可以利用多核或GPU加速单机计算,或扩展至数千台机器,以处理TB级数据和大型模型的训练。Xorbits 提供兼容 pandas、NumPy、PyTorch 和 XGBoost 等库的 Python API,无需深入了解基础设施即可完成工作负载扩展。
LakeSail - 统一批处理、流处理和AI工作负载的开源框架
AI工具Sail大数据处理AI工作负载开源框架性能优化
LakeSail是一个统一批处理、流处理和AI工作负载的开源框架。基于Rust开发,相比Spark,它提供4倍处理速度和94%硬件成本节省,无需代码修改即可迁移。该平台具有高互操作性和可观察性,为开发者提供高性能、安全和并发的编程环境,适合大数据和AI应用开发。
heavydb - 开源关系型列式数据库引擎 支持CPU和GPU高性能计算
HeavyDB数据库引擎SQLGPU加速大数据处理Github开源项目
HeavyDB是一款开源的SQL关系型列式数据库引擎,利用CPU和GPU的并行计算能力,可在毫秒级查询数十亿行数据,无需索引或预处理。支持混合CPU/GPU及纯CPU系统,采用多级缓存和即时查询编译技术优化性能。适用于大规模数据分析场景,提供高效的查询处理能力。
spark - 统一分析引擎 支持多语言API及丰富工具集
Apache Spark大数据处理分布式计算数据分析机器学习Github开源项目
Apache Spark是一个大规模数据处理的统一分析引擎,提供Scala、Java、Python和R的高级API。它支持多种高级工具,如Spark SQL、pandas API on Spark、MLlib、GraphX和Structured Streaming,分别用于SQL查询、pandas操作、机器学习、图处理和流处理。Spark的优化引擎支持通用计算图,适用于多种大数据分析场景。
arvados - 管理处理大规模科学和生物医学数据的开源平台
Arvados生物信息学大数据处理工作流管理开源平台Github开源项目
Arvados是一个专注于管理、处理和共享大规模科学和生物医学数据的开源平台。其核心组件包括Keep存储系统、Crunch工作流程编排系统、Workbench网络应用和多种开发工具。平台支持生物信息学家扩展计算密集型工作流程,便于开发人员创建生物医学应用,并助力IT管理员管理大规模资源。Arvados特别注重数据溯源和工作流程可重复性,广泛适用于科研和医疗领域。
datasketch - Python概率数据结构库实现大规模数据高效处理
datasketch数据草图概率数据结构大数据处理相似度估计Github开源项目
datasketch是一个用于处理和搜索大规模数据的Python库,提供多种概率数据结构如MinHash和HyperLogLog,用于估计Jaccard相似度和基数。该库包含MinHash LSH和HNSW等索引结构,实现亚线性查询时间。支持Python 3.7+版本,兼容Redis和Cassandra存储层,为大数据分析提供高效解决方案。