Tablesaw
概述
Tablesaw 是一个数据框架和可视化库,支持数据加载、清理、转换、过滤和汇总。如果你在Java中处理数据,它可能会为你节省时间和精力。Tablesaw还支持描述性统计,可用于准备数据以供Smile、Tribuo、H20.ai、DL4J等机器学习库使用。
Tablesaw特性
数据处理与转换
- 从RDBMS、Excel、CSV、TSV、JSON、HTML或固定宽度文本文件导入数据,无论是本地还是远程(http、S3等)
- 将数据导出为CSV、JSON、HTML或固定宽度文件
- 通过追加或连接合并表格
- 添加和删除列或行
- 排序、分组、过滤、编辑、转置等
- 映射/归约操作
- 处理缺失值
可视化
Tablesaw通过为Plot.ly JavaScript绘图库提供封装来支持数据可视化。以下是新库使用的几个示例。
统计
- 描述性统计:均值、最小值、最大值、中位数、总和、乘积、标准差、方差、百分位数、几何平均数、偏度、峰度等。
入门
将tablesaw-core添加到您的项目中。您可以在发布说明中找到最新版本的版本号:
<dependency>
<groupId>tech.tablesaw</groupId>
<artifactId>tablesaw-core</artifactId>
<version>此处填写版本号</version>
</dependency>
您也可以添加支持项目:
tablesaw-beakerx
- 用于在BeakerX中使用Tablesawtablesaw-excel
- 用于使用Excel工作簿tablesaw-html
- 用于使用HTMLtablesaw-json
- 用于使用JSONtablesaw-jsplot
- 用于创建图表
外部支持项目 - 不属于本组织:
- tablesaw-parquet - 用于在Tablesaw中使用Apache Parquet文件格式(报告问题)
文档和支持
- 从这里开始:https://jtablesaw.github.io/tablesaw/gettingstarted
- 然后查看我们的文档页面:https://jtablesaw.github.io/tablesaw/ 和 Tablesaw 用户指南。
- 在新的 GitHub 讨论论坛上提问、提出建议或告诉我们您如何使用 Tablesaw。
- 功能请求和错误报告可以在问题标签上提出。
集成
Jupyter 笔记本
- 我们建议在 Jupyter 笔记本中尝试 Tablesaw,这可以让您以更交互的方式体验 Tablesaw。通过安装 BeakerX 并尝试 Tablesaw 示例笔记本来开始。
- 在 Jupyter 笔记本中使用 Tablesaw 的第二种方法是使用 IJava,它内置了对 Tablesaw 的支持。Gary Sharpe 撰写了一篇优秀的教程,向您展示如何使用 Tablesaw 绘图。Gary 还撰写了其他几篇介绍 Tablesaw 的教程:
- 第三种方法是使用 Google Colab。同样,Gary Sharpe 有一篇优秀的教程:使用 Java 和 Google Colab 开始使用数据框
其他集成
- Eclipse 用户可能会发现 etablesaw 很有用。它提供了 Eclipse 集成,旨在将 Eclipse 转变为数据工作台。
- 您可以将 Tablesaw 与许多机器学习库一起使用。要查看将 Tablesaw 与 Smile 一起使用的示例,请查看 Tablesaw Jupyter 示例笔记本
- 如果您想将 Quandl 的金融和经济数据加载到 Tablesaw 中,可以使用 quandl4j-tablesaw。这在 Tablesaw 示例笔记本中也有演示