#数据集去重
Mistral-Nemo-12B-ArliAI-RPMax-v1.2-GGUF - 结合多样性与去重复性的高级创意写作AI模型
Github模型数据集去重ArliAI-RPMax开源项目Mistral NemoHuggingface创意写作AI模型
该项目以多样性与去重复性为核心,适合创意写作,增强模型对多角色与多情境的理解和反应能力。v1.2版本在Mistral Nemo 12B基础上,剔除了非创意内容,并增强了数据集的去重和过滤。通过大规模创意与角色扮演数据集的优化训练,该模型展现出非凡的创新性和低重复性。具体培训细节包括低学习率与低梯度累积,以最大化学习效率。此版本提供FP16和GGUF等量化格式,适应多样需求。
pythia-6.9b-deduped - 面向大规模语言模型研究的开源模型系列
数据集去重Huggingface语言模型模型训练科学研究Pythia模型Github开源项目
Pythia-6.9b-deduped为可解释性研究提供了一套8种大小的模型,每种大小有去重和未去重版本。该模型在性能上可与同类模型媲美,统一的训练方法推动科学研究,并提供154个中间检查点供研究使用