#ETL
paperetl - 医学科学论文ETL处理库
paperetlETL医学论文科学论文数据处理Github开源项目
paperetl是一个处理医学和科学论文的ETL库,支持PDF、XML、CSV等多种输入格式和COVID-19研究数据集。可将处理后的文章数据输出至SQLite、Elasticsearch、JSON或YAML文件。该工具安装简便,提供详细示例,有助于研究人员高效管理和分析大量学术文献。
radient - 多模态非结构化数据向量化和ETL开源工具
Radient向量化非结构化数据ETL嵌入Github开源项目
Radient是一款开源的非结构化数据处理工具,支持将音频、图形、图像、分子和文本等多种数据类型转换为嵌入向量。该项目不仅提供简单的向量化功能,还支持构建复杂的向量中心工作流。Radient特点包括易用性高、多模态支持、性能优化选项,以及完整的ETL流程构建能力,为开发者提供了高效处理非结构化数据的解决方案。
metl - 轻量级Web集成平台 支持多种数据处理方式
Metl数据集成平台ETLWeb服务开源软件Github开源项目
Metl是一个开源的Web集成平台,支持消息传递、文件ETL和Web服务调用等多种数据集成方式。该平台设计用于高效解决日常集成任务,无需复杂编码。Metl可灵活部署于云端或本地环境,并支持开发人员通过自定义组件进行功能扩展。它提供图形化设计界面,基于Java开发,可独立运行或部署至应用服务器。