#中文语料库

Chinese-Tiny-LLM

Chinese-Tiny-LLM项目提供完整的中文网络语料清洗流程和预训练代码，包含MAP-CC（8000亿中文token预训练数据集）、CHC-Bench（中文难例指令理解基准测试）和CT-LLM（2B参数中文中心语言模型）。该项目突破了传统依赖英语语料库的LLM训练方法，为构建更具包容性和适应性的语言模型奠定基础。

TUMCC是首个专门用于中文暗语识别的语料库，收集自12个Telegram群组，包含28,749条句子和804,971个字符。经过数据清理后，保留3,863条句子（约10万字符）。该语料库提供cleaned和raw两种格式数据，便于研究人员分析地下市场语言特征和网络犯罪行为。项目附有详细使用说明和引用指南，为相关学术研究提供支持。

相关文章

Article Cover

Chinese Tiny LLM: 开创中文大语言模型新纪元

Article Cover

TUMCC：首个Telegram地下市场中文黑话识别语料库

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com

@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号