NLP菜鸟逆袭记是一个全面的自然语言处理入门实践项目,涵盖了NLP的主要任务和技术:
- 文本分类
- 多类别文本分类:FastText、TextCNN、TextRNN、TextRCNN、Transformer等模型实现
- 多标签文本分类:基于Bert的实现
- 方面级情感分析:基于Bert的实现
- 文本匹配
- 信息抽取
- 命名实体识别:HMM、MEMM、CRF、Bert-CRF、Bert-Softmax、MRC等多种方法
- 关系抽取:基于Bert的pipeline方法、CasRel、GPLinker等
- 事件抽取:基于Bert和MRC的方法
- 属性抽取:基于Albert的实现
- 关键词抽取
- 新词发现
- 知识图谱
- 知识图谱构建:金融领域知识图谱构建实践
- 知识问答:基于知识图谱的问答系统
- 实体链接
- 知识图谱补全
- Neo4j实战
- 机器翻译
- 基于seq2seq的英中翻译实现
- 问答系统
- 机器阅读理解:基于QANet的中文阅读理解
- 检索式问答:FAQ系统、Faiss和Milvus实践
- 基于知识图谱的问答
-
文本生成
-
Text-to-SQL
-
文本纠错
-
文本挖掘
-
知识蒸馏
-
模型加速:CTranslate2、Optimum
-
OCR:pytesseract、hn_ocr、PaddleOCR
-
TTS:pyttsx3、PaddleSpeech等
-
Prompt工程
-
Embedding技术
该项目提供了丰富的代码实现和实践经验,是NLP入门学习的优秀资源。所有代码都经过测试可以正常运行,适合初学者参考和学习。