#大数据处理
langchain-extract
LangChain Extract: 基于FastAPI、LangChain和Postgresql的web服务器,提供强大的LLM数据提取功能。支持REST API、OpenAPI文档和JSON Schema,允许高效管理数据提取任务。提供示例API供快速测试和实验。
xorbits
Xorbits 是一款开源计算框架,旨在简化数据科学和机器学习任务的扩展。从数据预处理到模型部署,Xorbits 支持整个流程。它可以利用多核或GPU加速单机计算,或扩展至数千台机器,以处理TB级数据和大型模型的训练。Xorbits 提供兼容 pandas、NumPy、PyTorch 和 XGBoost 等库的 Python API,无需深入了解基础设施即可完成工作负载扩展。
LakeSail
LakeSail是一个统一批处理、流处理和AI工作负载的开源框架。基于Rust开发,相比Spark,它提供4倍处理速度和94%硬件成本节省,无需代码修改即可迁移。该平台具有高互操作性和可观察性,为开发者提供高性能、安全和并发的编程环境,适合大数据和AI应用开发。
heavydb
HeavyDB是一款开源的SQL关系型列式数据库引擎,利用CPU和GPU的并行计算能力,可在毫秒级查询数十亿行数据,无需索引或预处理。支持混合CPU/GPU及纯CPU系统,采用多级缓存和即时查询编译技术优化性能。适用于大规模数据分析场景,提供高效的查询处理能力。
spark
Apache Spark是一个大规模数据处理的统一分析引擎,提供Scala、Java、Python和R的高级API。它支持多种高级工具,如Spark SQL、pandas API on Spark、MLlib、GraphX和Structured Streaming,分别用于SQL查询、pandas操作、机器学习、图处理和流处理。Spark的优化引擎支持通用计算图,适用于多种大数据分析场景。
arvados
Arvados是一个专注于管理、处理和共享大规模科学和生物医学数据的开源平台。其核心组件包括Keep存储系统、Crunch工作流程编排系统、Workbench网络应用和多种开发工具。平台支持生物信息学家扩展计算密集型工作流程,便于开发人员创建生物医学应用,并助力IT管理员管理大规模资源。Arvados特别注重数据溯源和工作流程可重复性,广泛适用于科研和医疗领域。
datasketch
datasketch是一个用于处理和搜索大规模数据的Python库,提供多种概率数据结构如MinHash和HyperLogLog,用于估计Jaccard相似度和基数。该库包含MinHash LSH和HNSW等索引结构,实现亚线性查询时间。支持Python 3.7+版本,兼容Redis和Cassandra存储层,为大数据分析提供高效解决方案。