#数据清洗

深度学习中的标签噪声学习进展

3 个月前

机器学习噪声标签数据集数据清洗深度学习 Github 开源项目

3 个月前

FlagData：AI数据处理利器，助力大模型训练

3 个月前

FlagData 数据处理人工智能大规模预训练数据清洗 Github 开源项目

3 个月前

MetaCLIP: 揭秘CLIP数据的新方法

3 个月前

MetaCLIP CLIP 图像文本对预训练模型数据清洗 Github 开源项目

3 个月前

相关项目

sketch

Sketch是一个专为pandas用户设计的AI代码助手，通过理解数据上下文提供相关建议。无需在IDE中添加插件即可快速使用，功能包括数据标注、数据工程和数据分析。支持自然语言界面操作，通过简单导入和扩展，实现数据问答、代码生成及高级数据生成功能。

MNBVC

MNBVC中文语料集由MOP里屋社区发起，目标是创建最大的中文互联网语料集，涵盖新闻、小说、论文等多种类型数据。当前数据量为34582GB，最终目标为40TB。MNBVC提供多种文件格式的数据，包括txt、json、jsonl和parquet，并配备一系列优化工具及爬虫代码协助数据处理。项目欢迎有技术背景的志愿者参与，提升数据清洗效率。访问Wiki了解更多信息。

Phi2-mini-Chinese

项目包含从数据清洗、tokenizer训练、CLM预训练、SFT微调到RLHF优化的详细步骤，代码和模型已开源，可引用。支持Flash Attention加速，适用于大数据集处理。更多信息及模型权重在huggingface仓库。

FlagData

FlagData是一款综合性数据处理工具包，专为自然语言处理和计算机视觉等AI领域设计。该工具集成数据获取、准备、预处理和分析功能，支持高质量内容提取、大模型数据微调和分布式处理。最新的3.0.0版本扩展了数据类型支持，并提供丰富的自定义操作选项，简化了高质量数据生成流程。FlagData旨在为AI模型开发全周期提供高效的数据处理支持。

MetaCLIP

MetaCLIP是一个改进CLIP模型数据处理的开源项目。它提出了一种新的数据筛选算法,无需依赖现有模型即可从头整理数据。该项目强调数据质量,提供了可扩展到CommonCrawl全数据集的方法。MetaCLIP公开训练数据分布,提高了透明度,并为CLIP模型提供标准化的实验设置,便于控制实验和公平比较。

Advances-in-Label-Noise-Learning

这个项目全面总结了标签噪声学习领域的最新研究成果,包括论文、代码、软件工具、竞赛和教程等资源。它涵盖了群体分布鲁棒性、标签分布偏移等热点问题,并提供了真实噪声数据集和模拟框架。对于从事标签噪声学习研究的学者和工程师来说,这是一个非常有价值的知识库。

kcbert-base

KcBERT项目通过解析与处理韩语口语化评论数据，构建了专注于口语文本的预训练BERT模型。该模型在情感分析与实体识别等多项任务中表现优异，具备良好的适应性。通过Huggingface Transformers，用户无需额外下载文档即可使用并微调模型，同时KcBERT提供多种优化策略和数据集下载方式，以适应不同需求。

lt-wikidata-comp-en

LinkTransformer模型提供了一种简便的方法来实现实体匹配与链接任务，如聚类、去重和数据链接。模型使用微调后的句子转换器技术，将文本转换为稠密向量，适用于语义搜索等任务。通过安装LinkTransformer，用户可以在数据框架中轻松实现公司名称匹配，并获得相似度分数。该模型支持自定义训练，并提供详细的使用说明。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com