#NeMo Curator
NeMo-Curator - 提供GPU加速的大型语言模型数据集优化与管理解决方案
NeMo CuratorGPU加速大语言模型数据集准备Python库Github开源项目
NeMo Curator 是一款专为大型语言模型(LLM)设计的开源Python库,通过结合Dask和RAPIDS等技术,实现GPU加速的数据集准备与管理。其功能包括数据下载、语言识别、文本清理、质量过滤、文档去重和个人信息保护等模块,为多种LLM任务提供快速、灵活和可扩展的解决方案,显著提升数据处理效率与模型质量。
domain-classifier - 基于DeBERTa V3的多领域文本分类模型
Huggingface文本分类模型模型PyTorchNeMo CuratorGithub开源项目领域分类Deberta V3
这是一个基于DeBERTa V3 Base架构的文本分类模型,可将输入内容自动归类至26个不同领域。模型在超过100万个样本上训练,PR-AUC评分达0.9873。支持最多512个token的长文本输入,可通过NeMo Curator或Hugging Face Transformers库轻松集成使用。适用于各类文本内容的自动化领域分类任务。
相关文章