#数据格式

lance - 优化机器学习工作流程的高性能列式数据格式
LanceParquet机器学习矢量搜索数据格式Github开源项目
Lance是为机器学习工作流程优化的现代列式数据格式,提供比Parquet快100倍的随机访问性能,支持矢量索引和数据版本控制。兼容pandas、DuckDB、Polars和pyarrow,适用于搜索引擎、大规模机器学习训练以及复杂数据的存储和查询,如机器人数据和大型图像。更多集成支持即将推出。
databend - 高性能云数据仓库,基于 Rust 构建,适合大规模数据分析与人工智能
Databend云数据仓库AI分析性能基准测试数据格式Github开源项目热门
Databend 是一个开源、高性能的云数据仓库,使用 Rust 构建,专为复杂的数据分析设计。它整合了 AWS S3、Azure Blob 等服务,支持 ACID 事务、版本控制和无模式的数据存储,确保数据完整性与灵活性。Databend 支持多种数据格式,如 JSON、CSV、Parquet 等,提供高速查询执行与数据摄入,是成本效益高的 Snowflake 替代方案。此外,Databend 的 AI 功能支持高级分析,提供社区驱动的用户友好体验,适合企业和开发者快速部署和使用。
dpdata - Python工具包实现计算科学软件数据格式的灵活处理
dpdata计算科学数据格式Python包DeePMD-kitGithub开源项目
dpdata是一个面向计算科学软件的Python工具包,支持多种数据格式如DeePMD-kit、VASP和LAMMPS等。该工具包提供数据加载、操作和导出功能,可处理单帧和多帧系统数据,支持标记和非标记系统。dpdata具备丰富的数据访问和转换方法,同时支持原子系统的复制、扰动和替换,以及化学键和形式电荷的处理。
roapi - 无代码自动生成数据集的只读API服务
ROAPIAPI数据集查询接口数据格式Github开源项目
ROAPI为静态数据集自动生成只读API,无需编写代码。它支持SQL、GraphQL和REST API查询接口,可从文件系统、HTTP、S3等多种来源加载CSV、JSON、Parquet等格式的数据。ROAPI自动推断数据模式,并支持多种结果序列化格式,为数据访问和查询提供了灵活高效的解决方案。
incubator-graphar - 标准化的图数据存储和检索文件格式
GraphAr图数据存储属性图开源标准数据格式Github开源项目
GraphAr是一个开源项目,为图数据提供标准化的存储和检索格式。该项目包含系统无关的数据格式和配套库,支持属性图存储,采用元数据和分块方式管理数据。GraphAr可用于图数据的导入导出、持久化存储,以及作为图处理应用的直接数据源,有助于简化多样化系统间的数据交互。
insuranceqa-corpus-zh - 开源中文保险问答语料库 支持机器学习和NLP研究
保险语料库问答数据集机器学习数据格式分词处理Github开源项目
insuranceqa-corpus-zh是一个开源的中文保险行业问答语料库,包含真实用户问题和专业回答。作为保险领域首个开放QA语料库,它提供问答语料和问答对语料两种格式,支持答案选择、阅读理解等多种机器学习任务。数据集划分为训练集、测试集和验证集,并附有详细使用说明和格式介绍,方便研究人员快速应用。该项目适合进行保险领域自然语言处理和问答系统相关研究。
EJDict - 开源英日词典数据,支持多种格式下载和在线测试
英日词典ejdict-hand公共领域数据格式开源项目Github
EJDict是一个免费开源的英日词典项目,提供公开的词典数据。支持文本和SQLite格式下载,配有在线测试工具。欢迎通过GitHub提交修改或直接联系作者报告错误。项目采用CC0协议,确保数据可自由使用和分享。EJDict为开发者和语言学习者提供了实用且易于获取的词典资源。