#数据集成
Sparkling Water: 融合H2O与Apache Spark的强大机器学习引擎
langfuse
Langfuse为开发者提供综合的应用性能监控与开发解决方案,支持自托管与云部署。其SDK集和API能力让智能提示管理、应用数据跟踪变得简单,同时提供实时的关键数据洞察。Langfuse也优化了应用性能与用户体验,倾向于实现密集型的应用测试和数据跟踪。
ToolJet
ToolJet是一款开源低代码平台,可极大缩减工程师构建和部署内部工具的工作量。通过拖放操作即可快速创建复杂的响应式前端界面。它支持多种数据源,包括PostgreSQL、MongoDB 和 Elasticsearch数据库,支持OpenAPI规范和OAuth2的API端点,以及可以整合Stripe、Slack等SaaS工具和S3、GCS等对象存储服务。
datacap
DataCap是一个开源的数据管理与分析平台,支持多种数据源和数据库类型。该平台集成了数据转换、集成和可视化功能,能够高效处理大数据、关系型和NoSQL数据库。DataCap提供丰富的数据库连接器,包括ClickHouse、MySQL和PostgreSQL等主流数据库,方便用户进行多源数据管理、转换、图表制作和监控。
biocypher
BioCypher是一款专为生命科学领域设计的知识图谱工具,旨在简化创建和维护过程。它提供了灵活的数据存储、集成和推理功能,支持复杂数据的探索和分析。BioCypher可应用于人工智能研究,并具有用户友好的界面。该工具提供全面的文档和教程,帮助研究人员轻松构建和管理知识图谱。作为开源项目,BioCypher不断发展,为生物医学研究提供有力支持。
bitsail
BitSail是一个开源的分布式数据集成引擎,支持多种异构数据源间的同步。该引擎提供批处理、流处理和增量场景的数据集成解决方案,采用分布式和云原生架构,具备高性能和可靠性。BitSail在ByteDance多个业务线中得到应用,每日处理海量数据,展现了其强大的数据集成能力。
chunjun
ChunJun是基于Apache Flink的分布式数据集成框架,支持多种异构数据源间的同步和计算。框架提供JSON模板和SQL脚本配置,具备分布式运行、Docker部署、增量同步、实时处理等功能。ChunJun易扩展、灵活性高,在众多企业中稳定运行,为数据集成提供可靠解决方案。
chat-llamaindex
LlamaIndex Chat是一款开源工具,用于创建和分享基于个人数据的LLM聊天机器人。支持PDF和文本文档上传,提供提示工程界面,可部署至Vercel平台。项目支持Docker,便于本地开发,并具备数据源生成功能,有助于快速构建知识型AI助手。
inlong
Apache InLong 是一个高性能的海量数据集成框架,支持数据摄取、同步和订阅。该框架提供自动化和可靠的数据传输,支持批处理和流处理,适用于构建实时数据分析应用。InLong 已在实际生产环境中运行多年,每日处理数十万亿级数据,具备卓越的性能、可靠性和可扩展性。
mage-ai
Mage 提供了一种现代化的数据管道工具,旨在替代 Airflow,简化开发体验,支持 Python、SQL 和 R,实现数据的实时和批量处理。Mage 让您的数据团队可以在不牺牲监控和可观测性的情况下,轻松构建、预览和启动数据管道,甚至在小团队中也能高效管理数千个管道。