热门
导航
快讯
推荐文章
热门
导航
快讯
推荐文章
#高质量中文数据集
ChineseWebText - 大规模中文网络文本数据集及其评估工具链
ChineseWebText
高质量中文数据集
网页文本处理
自然语言处理
数据评估模型
Github
开源项目
ChineseWebText是一个大规模中文网络文本数据集,总容量达1.42TB,每条文本均附带质量评分。该项目还提供了一个600GB的高质量子集,文本质量均超过90%。项目包含EvalWeb工具链,用于从原始网络数据中提取优质中文文本。EvalWeb通过数据准备、预处理和BERT评估模型对文本质量进行筛选和评估。此外,项目还开发了基于FastText的快速分类器,在保持性能的同时提高了处理效率。
1
1
相关文章
ChineseWebText: 一个高质量的中文网络文本数据集
2 个月前
使用协议
隐私政策
广告服务
投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI
·
鲁ICP备2024100362号-6
·
鲁公网安备37021002001498号