热门
导航
快讯
推荐文章
热门
导航
快讯
推荐文章
#RETSim
text-dedup - 文本去重工具集,支持多种去重方法和大规模数据集处理
text-dedup
MinHash
SimHash
Bloom Filter
RETSim
Github
开源项目
项目提供一系列文本去重脚本,适用于各种场景,包括嵌入式去重(RETSim/UniSim)、适合大规模数据集的MinHash + MinHashLSH、64或128位SimHash、后缀数组子串去重、布隆过滤器和精确哈希去重等方法。项目支持高效处理大数据集并计划引入更多去重方法,如SuperMinHash和ProbMinHash等。用户可以根据需求来自定义脚本,灵活应用于不同的文本数据处理场景。
1
1
使用协议
隐私政策
广告服务
投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI
·
鲁ICP备2024100362号-6
·
鲁公网安备37021002001498号