热门
导航
快讯
推荐文章
热门
导航
快讯
推荐文章
#黑话识别
TUMCC:首个Telegram地下市场中文黑话识别语料库
2 个月前
TUMCC是一个独特的中文语料库,专门用于识别Telegram地下市场中的黑话。这个数据集包含了大量经过清理和处理的文本数据,为研究人员提供了宝贵的资源来分析和理解网络犯罪活动中使用的隐蔽语言。
TUMCC
电报
中文语料库
黑话识别
地下市场
Github
开源项目
2 个月前
相关项目
TUMCC
TUMCC是首个专门用于中文暗语识别的语料库,收集自12个Telegram群组,包含28,749条句子和804,971个字符。经过数据清理后,保留3,863条句子(约10万字符)。该语料库提供cleaned和raw两种格式数据,便于研究人员分析地下市场语言特征和网络犯罪行为。项目附有详细使用说明和引用指南,为相关学术研究提供支持。
查看
使用协议
隐私政策
广告服务
投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI
·
鲁ICP备2024100362号-6
·
鲁公网安备37021002001498号