awesome-bangla
一系列关于孟加拉语计算的工具、数据集和资源。此列表旨在帮助对孟加拉语言自然语言处理感兴趣的研究人员和爱好者。请随时贡献。
输入法工具和键盘
终端用户产品
- Avro Keyboard (Windows, Mac, Linux, Ubuntu, Online)
- Ridmik Keyboard (Android)
- OpenBangla Keyboard
- Online Probhat Keyboard
- Rokeya Keyboard Layout
- Borno Keyboard (Windows, Android)
库
- Avro Phonetic Library (JavaScript, Go, C++)
- ইউনিভার্সাল কিবোর্ড সফটওয়্যার ‘ইউবোর্ড’ / UBoard [bangla.gov.bd]
- jQuery.IME - 支持 Avro, Probhat, Inscript, National (BD)
- BengaliPhoneticParser.swift (OpenBangla)
- Rupantor - 一个非常灵活的孟加拉语拼音解析器/转换器,使用 Rust 编写。它也支持 Avro Phonetic。(OpenBangla)
- bijoy2unicode - 一个用于 Bijoy 编码和 Unicode 孟加拉语之间双向转换的 Python 包。
固定和拼音输入规范
语料库和数据集
- 语料库构建工具 (Aniruddha Adhikary et al, BanglaKit)
- 一个语言独立的维基百科文本语料库下载程序
- 印度语言词性标记集:孟加拉语 (LDC2010T16)
- IARPA Babel 孟加拉语包 IARPA-babel103b-v0.4b (LDC2016S08)
- BanglaLekha 语料库 (手写体) (ULAB, Dhaka)
- BanglaWriting: 一个多用途的脱机孟加拉语手写数据集 (BUBT, Dhaka)
- Bangla 单词列表 (Bangla Akademy Banan Abhidhan) (SNLTR)
- Bangla 语音语料库 (IIT, Kharagpur)
- 孟加拉语停用词列表 (stopwords-iso)
- Bangla TTS 语音语料库 (Google)
- 大型孟加拉语 ASR 数据集 (Google)
- Ekush: 孟加拉手写字符 (DIU, Dhaka)
- ISHARA-LIPI: 孟加拉手语数字和字符 (DIU, Dhaka)
- 孟加拉大规模Commoncrawl数据集
- 孟加拉语维基百科转储数据集
- 孟加拉语开放字幕平行语料库
- 孟加拉语-英语翻译数据集
- 孟加拉女性与男性姓名数据集,用于NLP任务
- BanglaEmotion: 一个用于孟加拉文本情绪分析的基准数据集 (CU, Chittagong)
- OSCAR: 开放超级大型抓取ALMAnaCH语料库
- BN-HTRd: 用于文档级脱机孟加拉手写文本识别(HTR)的基准数据集 (PUC, Chittagong)
- 孟加拉合成车牌数据集 (Zabir Al Nazi)
- 孟加拉语音数据集 (Common Voice, Mozilla)
NLP 工具、脚本和实用程序(以及项目)
NLP 工具
- 孟加拉语 POS 标注器(基于 HMM/CRF/ME) (IIT, Kharagpur)
- 孟加拉语 POS 标注器 (shm0007)
- 孟加拉语 POS 标注器 (uzl)
- 孟加拉语 POS 标注器(基于 XML) (sunkuet02)
- 孟加拉语 POS 标注器(基于规则) (Sharif Mohammad Abdullah)
- 形态分析器 (IIT, Kharagpur)
- Chunker(基于规则) (IIT, Kharagpur)
- Chunker(统计) (IIT, Kharagpur)
- 孟加拉语依存解析器 (Rajarshi Das 等)
- 孟加拉语词干提取器(基于规则) (Debasis Ganguly)
- 孟加拉语词干提取器(基于规则)(.NET) (Tapas Nayak)
- 孟加拉语词干提取器(基于规则)(Java) (Tapas Nayak)
- 孟加拉语词干提取器(PHP?) (Md. Tanveer Islam, Tanveer Ahmed Nayeem)
- 孟加拉语词干提取器(JavaScript) (Rifat Nabi)
- 孟加拉语词干提取器(Java)(2015) (Tazim Hoque)
- 孟加拉语词干提取器(Java)(2017) (Sudipto Roy)
- 孟加拉语词嵌入 (Md. Afjal Hossain)
- 孟加拉语 Wordnet (Soumen Ganguly)
- 孟加拉语情感分析(iPython Notebook) (Abhishek Singh)
- 关键词提取 (Mahir)
- 孟加拉语 NER (Imranul Ashrafi, Muntasir Mohammad, Arani Shawkat Mauree, Galib Md. Azraf Nijhum, Redwanul Karim, Nabeel Mohammed 和 Sifat Momen)
- 孟加拉语 NLP 库(BNLP) (Sagor)
- Emoji 到孟加拉语文本翻译 - NLP 的 Python 包 (Faruk & Sagor)
- 孟加拉语 BERT 模型 (Sagor)
- 孟加拉语 Word2Vec (Mehadi Hasan Menon)
- 孟加拉语 NLP 工具包 (Foysal)
字典
- 孟加拉语词汇字典(2012) (Abhishek Gupta)
- 孟加拉语字典 (Minhas Kamal)
- 跨平台孟加拉语字典(Go/QML) (Monir Zaman)
孟加拉语机器翻译
- 孟加拉语到英语翻译 (Mehadi Hasan Menon)
OCR/HTR
- Borno 孟加拉语 OCR (bangla.gov.bd)
- 孟加拉语 OCR (kmhasan)
- 孟加拉语 OCR (CRBLP, BRACU)
- 孟加拉语 OCR (Fariha Nazmul)
- 基于卷积神经网络的孟加拉语手写 OCR (Dibyatanoy Bhattacharjee)
- 使用迁移学习的 Numta 手写孟加拉数字分类 (Hasib Zunair, Nabeel Mohammed, Sifat Momen)
- 孟加拉数字识别 (Abhinav Agarwalla)
- 孟加拉数字分类 (Md. Afjal Hossain)
- BOCRA [孟加拉语 OCR 的 R 包]
- 基于 CNN 的孟加拉语 OCR (Sanjiv)
- 基于 CNN 的孟加拉语手写 OCR (BM Abir)
- 孟加拉语 OCR 的合成数据生成 (Mehadi Hasan Menon)
- 孟加拉语手写文本识别的行和词分割(BN-DRISHTI) (PUC/CU, Chittagong)
语音转文本
- voice.bangla.gov.bd
- 孟加拉语语音转文本 (Mehadi Hasan Menon)
文本到语音
- read.bangla.gov.bd
- Katha - 孟加拉语 TTS (CRBLP, BRACU)
- Bengali-HTS(基于 HMM 的孟加拉语 TTS) (IIT, Kharagpur)
- Apona Pathok - 孟加拉语 TTS(失踪)
- bangla-tts(基于深度 CNN 的实时(GPU)TTS) (Zabir Al Nazi)
多模态
- 孟加拉语的 CLIP(对比语言-图像预训练)实现 (Zabir Al Nazi)
- 从孟加拉语模因和文本中检测多模态仇恨言论 (Rezaul Karim)
其他
- 孟加拉语拼写检查 (Ankur)
- 孟加拉语上下文拼写检查 (Mahir Mahbub)
- Bagha - 个人助理 (Reyad Rahman)
- 使用双向 LSTM 的孟加拉语新闻分类 (Zabir Al Nazi)
- Aurthohin - 无意义孟加拉语文本生成器
- 孟加拉语 Word2Vec 训练和可视化 (Afnan UL Haque Nuhash)
- 使用 CLIP 的孟加拉语图像搜索和图像-文本匹配系统 (Zabir Al Nazi)
编程语言 (?)
- Koro (用孟加拉语编写的Go)
- Potaka
- ChaScript (Syed Tanveer Jishan)
- Pakhi (Shafin Ashraf)
- Pankti (Palash Bauri)
- Bengali-Alphabet