Logo

#数据清洗

深度学习中的标签噪声学习进展

2 个月前
Cover of 深度学习中的标签噪声学习进展

MetaCLIP: 揭秘CLIP数据的新方法

2 个月前
Cover of MetaCLIP: 揭秘CLIP数据的新方法

FlagData:AI数据处理利器,助力大模型训练

2 个月前
Cover of FlagData:AI数据处理利器,助力大模型训练

相关项目

Project Cover
sketch
Sketch是一个专为pandas用户设计的AI代码助手,通过理解数据上下文提供相关建议。无需在IDE中添加插件即可快速使用,功能包括数据标注、数据工程和数据分析。支持自然语言界面操作,通过简单导入和扩展,实现数据问答、代码生成及高级数据生成功能。
Project Cover
MNBVC
MNBVC中文语料集由MOP里屋社区发起,目标是创建最大的中文互联网语料集,涵盖新闻、小说、论文等多种类型数据。当前数据量为34582GB,最终目标为40TB。MNBVC提供多种文件格式的数据,包括txt、json、jsonl和parquet,并配备一系列优化工具及爬虫代码协助数据处理。项目欢迎有技术背景的志愿者参与,提升数据清洗效率。访问Wiki了解更多信息。
Project Cover
Phi2-mini-Chinese
项目包含从数据清洗、tokenizer训练、CLM预训练、SFT微调到RLHF优化的详细步骤,代码和模型已开源,可引用。支持Flash Attention加速,适用于大数据集处理。更多信息及模型权重在huggingface仓库。
Project Cover
FlagData
FlagData是一款综合性数据处理工具包,专为自然语言处理和计算机视觉等AI领域设计。该工具集成数据获取、准备、预处理和分析功能,支持高质量内容提取、大模型数据微调和分布式处理。最新的3.0.0版本扩展了数据类型支持,并提供丰富的自定义操作选项,简化了高质量数据生成流程。FlagData旨在为AI模型开发全周期提供高效的数据处理支持。
Project Cover
MetaCLIP
MetaCLIP是一个改进CLIP模型数据处理的开源项目。它提出了一种新的数据筛选算法,无需依赖现有模型即可从头整理数据。该项目强调数据质量,提供了可扩展到CommonCrawl全数据集的方法。MetaCLIP公开训练数据分布,提高了透明度,并为CLIP模型提供标准化的实验设置,便于控制实验和公平比较。
Project Cover
Advances-in-Label-Noise-Learning
这个项目全面总结了标签噪声学习领域的最新研究成果,包括论文、代码、软件工具、竞赛和教程等资源。它涵盖了群体分布鲁棒性、标签分布偏移等热点问题,并提供了真实噪声数据集和模拟框架。对于从事标签噪声学习研究的学者和工程师来说,这是一个非常有价值的知识库。
投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号