#数据集处理
相关项目
lilac
Lilac是一个开源的AI数据处理工具,专注于数据集的探索、管理和质量控制。它提供交互式数据探索、LLM驱动的搜索、聚类和标注功能,支持本地运行和云端处理。Lilac能够优化数据集,降低AI训练成本,并支持语义搜索和概念搜索等高级特性。该工具已被Cohere和Databricks等公司采用,用于改善预训练和微调数据的质量。
Labelme2YOLO
Labelme2YOLO是一个开源工具,用于将LabelMe标注工具的JSON格式转换为YOLO文本文件格式。它支持批量转换和单文件转换,能自动分割训练验证集,并可生成YOLOv5 v7.0实例分割数据集。通过简单的命令行操作,用户可获得YOLO格式的标签、图像文件和dataset.yaml配置。这个工具简化了数据集准备过程,方便了YOLO目标检测和实例分割任务的开展。
filco
FilCo项目开发了一种新型上下文过滤方法,旨在改进检索增强生成(RAG)系统。该方法通过筛选最相关的上下文信息来提高生成质量。项目开源了完整代码,涵盖上下文评分、数据处理、模型训练和评估等功能。研究人员可以复现实验并将此技术应用于问答和对话等RAG任务中。