Parquet4S
Parquet4s 是一个简单的 Parquet I/O 库。它可以让你在 Scala 中轻松读写 Parquet 文件。
只需使用 Scala case class 来定义数据的模式。无需使用 Avro、Protobuf、Thrift 或其他数据序列化系统。如果你不想使用 case class,也可以使用通用记录。
兼容 Apache Spark 生成的文件。然而,与 Spark 不同,你无需启动集群即可执行 I/O 操作。
基于官方 Parquet 库、Hadoop Client 和 Shapeless(Scala 3 版本不使用 Shapeless)。
由于基于 Hadoop Client,你可以连接到任何兼容 Hadoop 的存储,如 AWS S3 或 Google Cloud Storage。
提供 Akka Streams、Pekko Streams 和 FS2 的集成。
支持 Scala 2.12.x、2.13.x 和 3.3.x 版本。
文档
文档可在此处获取。
贡献
想要贡献代码?请阅读贡献指南。