#大数据处理

langchain-extract学习资料汇总 - 用于从文本和文件中提取结构化信息的Web服务器

2 个月前

LangChain Extract FastAPI 提取信息大数据处理 Web服务器 Github 开源项目

2 个月前

datasketch: 让大数据变小的概率数据结构库

3 个月前

datasketch 数据草图概率数据结构大数据处理相似度估计 Github 开源项目

3 个月前

Arvados: 开源的生物医学大数据管理与分析平台

3 个月前

Arvados 生物信息学大数据处理工作流管理开源平台 Github 开源项目

3 个月前

Apache Spark: 大规模数据处理的统一分析引擎

3 个月前

Apache Spark 大数据处理分布式计算数据分析机器学习 Github 开源项目

3 个月前

HeavyDB: 下一代GPU加速分析数据库

3 个月前

HeavyDB 数据库引擎 SQL GPU加速大数据处理 Github 开源项目

3 个月前

Xorbits: 革新数据科学和机器学习的开源计算框架

3 个月前

Xorbits 开源计算框架机器学习 Python API 大数据处理 Github 开源项目

3 个月前

LangChain Extract: 强大的信息提取工具

3 个月前

LangChain Extract FastAPI 提取信息大数据处理 Web服务器 Github 开源项目

3 个月前

相关项目

langchain-extract

LangChain Extract: 基于FastAPI、LangChain和Postgresql的web服务器，提供强大的LLM数据提取功能。支持REST API、OpenAPI文档和JSON Schema，允许高效管理数据提取任务。提供示例API供快速测试和实验。

xorbits

Xorbits 是一款开源计算框架，旨在简化数据科学和机器学习任务的扩展。从数据预处理到模型部署，Xorbits 支持整个流程。它可以利用多核或GPU加速单机计算，或扩展至数千台机器，以处理TB级数据和大型模型的训练。Xorbits 提供兼容 pandas、NumPy、PyTorch 和 XGBoost 等库的 Python API，无需深入了解基础设施即可完成工作负载扩展。

LakeSail

LakeSail是一个统一批处理、流处理和AI工作负载的开源框架。基于Rust开发，相比Spark，它提供4倍处理速度和94%硬件成本节省，无需代码修改即可迁移。该平台具有高互操作性和可观察性，为开发者提供高性能、安全和并发的编程环境，适合大数据和AI应用开发。

heavydb

HeavyDB是一款开源的SQL关系型列式数据库引擎，利用CPU和GPU的并行计算能力，可在毫秒级查询数十亿行数据，无需索引或预处理。支持混合CPU/GPU及纯CPU系统，采用多级缓存和即时查询编译技术优化性能。适用于大规模数据分析场景，提供高效的查询处理能力。

spark

Apache Spark是一个大规模数据处理的统一分析引擎，提供Scala、Java、Python和R的高级API。它支持多种高级工具，如Spark SQL、pandas API on Spark、MLlib、GraphX和Structured Streaming，分别用于SQL查询、pandas操作、机器学习、图处理和流处理。Spark的优化引擎支持通用计算图，适用于多种大数据分析场景。

arvados

Arvados是一个专注于管理、处理和共享大规模科学和生物医学数据的开源平台。其核心组件包括Keep存储系统、Crunch工作流程编排系统、Workbench网络应用和多种开发工具。平台支持生物信息学家扩展计算密集型工作流程，便于开发人员创建生物医学应用，并助力IT管理员管理大规模资源。Arvados特别注重数据溯源和工作流程可重复性，广泛适用于科研和医疗领域。

datasketch

datasketch是一个用于处理和搜索大规模数据的Python库，提供多种概率数据结构如MinHash和HyperLogLog，用于估计Jaccard相似度和基数。该库包含MinHash LSH和HNSW等索引结构，实现亚线性查询时间。支持Python 3.7+版本，兼容Redis和Cassandra存储层，为大数据分析提供高效解决方案。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com