#数据探索

data-validation - 用于机器学习数据验证和探索的高扩展性工具库
TensorFlow数据验证机器学习数据探索数据分析Github开源项目
TensorFlow Data Validation (TFDV) 是一个高度可扩展的机器学习数据验证和探索库。它与TensorFlow和TFX生态系统无缝集成,提供数据统计计算、分布可视化、自动模式生成和异常检测等功能。TFDV能够帮助开发者有效识别数据问题,保障数据质量,从而提升机器学习模型的可靠性和性能。
lilac - 开源解决方案促进AI数据探索与质量管理
Lilac数据集处理AI训练数据探索数据质量控制Github开源项目
Lilac是一个开源的AI数据处理工具,专注于数据集的探索、管理和质量控制。它提供交互式数据探索、LLM驱动的搜索、聚类和标注功能,支持本地运行和云端处理。Lilac能够优化数据集,降低AI训练成本,并支持语义搜索和概念搜索等高级特性。该工具已被Cohere和Databricks等公司采用,用于改善预训练和微调数据的质量。
positron - 先进的多语言数据科学集成开发环境
Positron数据科学IDE开源软件代码编辑器数据探索Github开源项目
Positron是一款基于Code OSS构建的数据科学集成开发环境,由Posit PBC开发。它提供可扩展的多语言工具,适用于数据科学家和研究人员编写代码、探索数据及进行可重复性研究。目前支持macOS、Windows和Linux平台,采用Elastic License 2.0许可证。该项目处于早期开发阶段,持续优化中。
datasette - 开源数据探索与发布工具 支持多种格式
Datasette数据探索数据发布开源工具SQLiteGithub开源项目
Datasette是一个开源的数据探索和发布工具,可处理各种类型和规模的数据,将其转换为交互式网站和API。该工具适合数据记者、博物馆工作者、档案管理员、政府机构、科研人员等需要共享数据的群体使用。Datasette支持Homebrew和pip等多种安装方式,提供简单的命令行操作进行数据服务和发布。此外,它还允许配置元数据,包括许可证和来源信息,提高数据的可靠性和可溯源性。