lance - 优化机器学习工作流程的高性能列式数据格式

Lance：为机器学习优化的现代列式数据格式

Lance是一种专为机器学习工作流和数据集优化的现代列式数据格式。它具有多项独特的特性和优势,使其成为构建搜索引擎、特征存储、大规模ML训练以及存储和查询复杂嵌套数据的理想选择。

主要特性

Lance提供了以下关键功能:

高性能随机访问: 与Parquet相比,Lance的随机访问速度提高了100倍,同时不牺牲扫描性能。这对于需要频繁随机访问数据的ML工作流非常有利。
向量搜索: Lance内置了向量索引,可以在毫秒级内找到最近邻,并支持将OLAP查询与向量搜索结合。这使得Lance非常适合构建搜索引擎和特征存储。
零拷贝自动版本控制: Lance可以无需额外基础设施就能管理数据的不同版本。这简化了数据版本管理的复杂性。
广泛的生态系统集成: Lance与Apache Arrow、Pandas、Polars、DuckDB等流行的数据处理工具兼容,并且正在添加更多集成。这使得Lance可以无缝融入现有的数据处理管道。

快速上手

使用Lance非常简单。用户只需通过pip安装pylance包即可开始使用。Lance提供了简单的API来转换、读取和处理数据。

例如,用户可以轻松地将Parquet数据转换为Lance格式:

import lance
import pyarrow as pa

parquet_dataset = pa.dataset.dataset("data.parquet", format='parquet')
lance.write_dataset(parquet_dataset, "data.lance")

读取Lance数据同样简单: