热门
导航
快讯
推荐文章
热门
导航
快讯
推荐文章
#地下市场
TUMCC - 中文暗语识别语料库推动地下市场研究
Github
开源项目
中文语料库
电报
TUMCC
黑话识别
地下市场
TUMCC是首个专门用于中文暗语识别的语料库,收集自12个Telegram群组,包含28,749条句子和804,971个字符。经过数据清理后,保留3,863条句子(约10万字符)。该语料库提供cleaned和raw两种格式数据,便于研究人员分析地下市场语言特征和网络犯罪行为。项目附有详细使用说明和引用指南,为相关学术研究提供支持。
1
1
相关文章
TUMCC:首个Telegram地下市场中文黑话识别语料库
3 个月前
使用协议
隐私政策
广告服务
投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI
·
鲁ICP备2024100362号-6
·
鲁公网安备37021002001498号