#NeMo Curator
相关项目
NeMo-Curator
NeMo Curator 是一款专为大型语言模型(LLM)设计的开源Python库,通过结合Dask和RAPIDS等技术,实现GPU加速的数据集准备与管理。其功能包括数据下载、语言识别、文本清理、质量过滤、文档去重和个人信息保护等模块,为多种LLM任务提供快速、灵活和可扩展的解决方案,显著提升数据处理效率与模型质量。
domain-classifier
这是一个基于DeBERTa V3 Base架构的文本分类模型,可将输入内容自动归类至26个不同领域。模型在超过100万个样本上训练,PR-AUC评分达0.9873。支持最多512个token的长文本输入,可通过NeMo Curator或Hugging Face Transformers库轻松集成使用。适用于各类文本内容的自动化领域分类任务。