#数据格式
lance
Lance是为机器学习工作流程优化的现代列式数据格式,提供比Parquet快100倍的随机访问性能,支持矢量索引和数据版本控制。兼容pandas、DuckDB、Polars和pyarrow,适用于搜索引擎、大规模机器学习训练以及复杂数据的存储和查询,如机器人数据和大型图像。更多集成支持即将推出。
databend
Databend 是一个开源、高性能的云数据仓库,使用 Rust 构建,专为复杂的数据分析设计。它整合了 AWS S3、Azure Blob 等服务,支持 ACID 事务、版本控制和无模式的数据存储,确保数据完整性与灵活性。Databend 支持多种数据格式,如 JSON、CSV、Parquet 等,提供高速查询执行与数据摄入,是成本效益高的 Snowflake 替代方案。此外,Databend 的 AI 功能支持高级分析,提供社区驱动的用户友好体验,适合企业和开发者快速部署和使用。
dpdata
dpdata是一个面向计算科学软件的Python工具包,支持多种数据格式如DeePMD-kit、VASP和LAMMPS等。该工具包提供数据加载、操作和导出功能,可处理单帧和多帧系统数据,支持标记和非标记系统。dpdata具备丰富的数据访问和转换方法,同时支持原子系统的复制、扰动和替换,以及化学键和形式电荷的处理。
roapi
ROAPI为静态数据集自动生成只读API,无需编写代码。它支持SQL、GraphQL和REST API查询接口,可从文件系统、HTTP、S3等多种来源加载CSV、JSON、Parquet等格式的数据。ROAPI自动推断数据模式,并支持多种结果序列化格式,为数据访问和查询提供了灵活高效的解决方案。
incubator-graphar
GraphAr是一个开源项目,为图数据提供标准化的存储和检索格式。该项目包含系统无关的数据格式和配套库,支持属性图存储,采用元数据和分块方式管理数据。GraphAr可用于图数据的导入导出、持久化存储,以及作为图处理应用的直接数据源,有助于简化多样化系统间的数据交互。
insuranceqa-corpus-zh
insuranceqa-corpus-zh是一个开源的中文保险行业问答语料库,包含真实用户问题和专业回答。作为保险领域首个开放QA语料库,它提供问答语料和问答对语料两种格式,支持答案选择、阅读理解等多种机器学习任务。数据集划分为训练集、测试集和验证集,并附有详细使用说明和格式介绍,方便研究人员快速应用。该项目适合进行保险领域自然语言处理和问答系统相关研究。
EJDict
EJDict是一个免费开源的英日词典项目,提供公开的词典数据。支持文本和SQLite格式下载,配有在线测试工具。欢迎通过GitHub提交修改或直接联系作者报告错误。项目采用CC0协议,确保数据可自由使用和分享。EJDict为开发者和语言学习者提供了实用且易于获取的词典资源。