TUMCC(电报地下市场中文语料库)
TUMCC是行话识别领域的第一个中文语料库。
在构建TUMCC时,我们从12个电报群组的19,821名电报用户那里收集了28,749个句子,包含804,971个字符。
在发布这个语料库之前,我们已完成了数据筛选和分词。因此,它可能更易于使用。
清理后,TUMCC包含3,139名电报用户的3,863个句子(100,000个字符)。
文件
TUMCC-clean.txt
包含我们清理后的语料库。你可以直接在研究中使用它。
TUMCC-raw.7z
包含我们从电报收集的原始信息。你可以进行文本清理以获取更多有效数据和有价值的信息。
有关数据提取的目标电报群组来源的更多详细信息,请参阅论文《利用上下文导向和语言特征识别电报地下市场中的中文暗语》(《信息处理与管理》,2022年)。
引用
感谢你对我们数据集的兴趣,请随意留下一个⭐️或通过以下方式引用我们:
@article{hou2022identification,
title={Identification of Chinese dark jargons in Telegram underground markets using context-oriented and linguistic features},
author={Hou, Yiwei and Wang, Hailin and Wang, Haizhou},
journal={Information Processing \& Management},
volume={59},
number={5},
pages={103033,1--20},
year={2022},
publisher={Elsevier}
}