热门
导航
快讯
推荐文章
热门
导航
快讯
推荐文章
#文本去重
datatrove - 用于大规模文本数据处理和去重的开源Python库
DataTrove
数据处理
大规模
管道
文本去重
Github
开源项目
DataTrove是一个开源Python库,专门用于处理、过滤和去重大规模文本数据。它提供预构建的常用处理模块和自定义功能支持。该库的处理流程可在本地或Slurm集群上运行,具有低内存消耗和多步骤设计,适合处理大型语言模型训练数据等大规模工作负载。DataTrove支持多种文件系统,为数据处理提供灵活解决方案。
1
1
相关文章
DataTrove: 大规模文本数据处理利器
2024年09月05日
使用协议
隐私政策
广告服务
投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI
·
鲁ICP备2024100362号-6
·
鲁公网安备37021002001498号