#中文语料库

Chinese-Tiny-LLM - 中文大语言模型训练流程与高质量语料库开源项目

Chinese-Tiny-LLM语言模型预训练中文语料库自然语言处理Github开源项目

Chinese-Tiny-LLM项目提供完整的中文网络语料清洗流程和预训练代码，包含MAP-CC（8000亿中文token预训练数据集）、CHC-Bench（中文难例指令理解基准测试）和CT-LLM（2B参数中文中心语言模型）。该项目突破了传统依赖英语语料库的LLM训练方法，为构建更具包容性和适应性的语言模型奠定基础。

TUMCC - 中文暗语识别语料库推动地下市场研究

TUMCC电报中文语料库黑话识别地下市场Github开源项目

TUMCC是首个专门用于中文暗语识别的语料库，收集自12个Telegram群组，包含28,749条句子和804,971个字符。经过数据清理后，保留3,863条句子（约10万字符）。该语料库提供cleaned和raw两种格式数据，便于研究人员分析地下市场语言特征和网络犯罪行为。项目附有详细使用说明和引用指南，为相关学术研究提供支持。

相关文章

Article Cover

Chinese Tiny LLM: 开创中文大语言模型新纪元

2024年09月05日

Article Cover

TUMCC：首个Telegram地下市场中文黑话识别语料库

2024年09月05日

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com

@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号