#数据集管理

CSGHub - 开源大模型管理平台,支持全生命周期管理与本地部署
Github开源项目私有化部署CSGHub大模型资产管理模型生命周期数据集管理
CSGHub是一个开源且可信的大模型资产管理平台,帮助用户管理LLM及其应用的全生命周期资产。平台支持通过Web界面、Git命令行和自然语言聊天机器人进行操作,提供微服务子模块和标准化OpenAPI,可轻松集成到用户系统。CSGHub专为大模型设计,支持本地部署,功能类似于私有化的Huggingface,涵盖数据集、模型文件和代码等管理。
dolma - 3万亿令牌的多样化开放数据集与高性能管理工具
Github开源项目语言模型数据集管理Dolma DatasetDolma ToolkitAI2
Dolma项目提供一个包含3万亿令牌的多样化开放数据集,涵盖网络内容、学术出版物、代码、书籍和百科材料。Dolma Toolkit是一款高性能工具包,能够高效整理大型数据集,支持并行处理、便捷移植、内置标签器、快速去重、扩展性和云支持。该项目由Allen Institute for AI开发,数据集可在HuggingFace平台下载。
yoloexplorer - 高效探索和处理计算机视觉数据集的开源工具
Github开源项目机器学习计算机视觉数据集管理图像分析YOLOExplorer
YOLOExplorer是一款开源的计算机视觉数据集分析和处理工具。它提供API接口,支持SQL查询、向量相似度搜索和Pandas集成。该工具可用于数据集分析、清理和合并,并提供GUI仪表板进行可视化操作。YOLOExplorer支持多种预训练模型,能快速生成适用于YOLO、SAM等模型的数据集,有助于提升计算机视觉项目的开发效率。