NLP新手进阶指南
- LLMs 千面郎君:https://github.com/km1994/LLMs_interview_notes
- 简介:该仓库主要收录大模型(LLMs)算法工程师相关的面试题
- LLMs九层妖塔:https://github.com/km1994/LLMsNineStoryDemonTower
- 简介:【LLMs九层妖塔】分享LLMs在自然语言处理(ChatGLM、Chinese-LLaMA-Alpaca、小羊驼Vicuna、LLaMA、GPT4ALL等)、信息检索(langchain)、语言合成、语言识别、多模态等领域(Stable Diffusion、MiniGPT-4、VisualGLM-6B、Ziya-Visual等)的实战经验。
- NLP新手进阶指南:https://github.com/km1994/AwesomeNLP
- 简介:【NLP新手进阶】分享自然语言处理(文本分类、信息抽取、知识图谱、机器翻译、问答系统、文本生成、Text-to-SQL、文本纠错、文本挖掘、知识蒸馏、模型加速、OCR、TTS、Prompt、embedding等)的实战经验。
- NLP 面试通关宝典:https://github.com/km1994/NLP-Interview-Notes
- 简介:该仓库主要收录NLP算法工程师相关的面试题
- 【关于NLP】那些你不知道的事:https://github.com/km1994/nlp_paper_study
- 简介:该仓库主要记录NLP算法工程师相关的顶会论文研读笔记
整理NLP基础任务(文本分类、命名实体识别、关系抽取、事件抽取、文本摘要、文本生成、Prompt)和LLMs大模型等开源项目,致力于打造全网最全面的NLP入门教程!
- NLP新手进阶指南
一、文本分类
1.1 多类别文本分类
- NLP新手进阶指南——【多类别文本分类】笔记
- 多类别文本分类 实战篇
- NLP新手进阶指南——【多类别文本分类】实战
- 非预训练类模型
- FastText
- TextCNN
- TextRNN
- TextRCNN
- Transformer
- 预训练类模型
- Bert
- Albert
- Roberta
- Distilbert
- Electra
- 非预训练类模型
- NLP新手进阶指南——【多类别文本分类】实战
1.2 多标签文本分类
1.3 方面级情感识别
- NLP新手逆袭记——【基于方面的情感分析(ABSA)】理论
- 基于方面的情感分析(ABSA) 实践篇
1.4 文本匹配
- NLP新手逆袭记——【文本匹配】理论
- 文本匹配 实践篇
二、信息抽取
2.1 命名实体识别
- 命名实体识别 理论篇
- 命名实体识别 实践篇
- NLP新手逆袭记——【Bert-CRF】实践
- NLP新手逆袭记——【Bert-Softmax】实践
- NLP新手逆袭记——【Bert-Span】实践
- NLP新手逆袭记——【MRC for Flat Nested NER:一种基于机器阅读理解的命名实体识别】实践
- NLP新手逆袭记——【Biaffine NER:一种基于双仿射注意力机制的命名实体识别】实践
- NLP新手逆袭记——【Multi Head Selection Ner: 一种基于多头选择的命名实体识别】实践
- NLP新手逆袭记——【one vs rest NER: 一种基于one vs rest的命名实体识别】实践
- NLP新手逆袭记——【GlobalPointer:一种基于span分类的解码方法】实践
- NLP新手逆袭记——【W2NER:一种统一的命名实体识别词与词的的命名实体识别】实践
2.2 关系抽取
- NLP新手逆袭记——【关系抽取(分类)】理论
- 关系抽取 实践篇
2.3 事件抽取
- 事件抽取 理论篇
- 事件抽取 实践篇
2.4 属性抽取
2.5 关键词抽取
- 【NLP新手逆袭记—【关键词提取】理论
- 关键词抽取 实践篇
2.6 新词发现
- NLP新手逆袭记—【新词发现】理论
- 新词发现 实践篇
三、知识图谱
3.1 知识图谱
3.2 实体链接
- 【NLP新手逆袭记—【实体链接】理论
- 实体链接 实践篇
3.3 知识图谱补全
- 【NLP新手逆袭记—【知识图谱补全】理论
- 知识图谱补全 实践篇
3.4 neo4j
四、机器翻译
五、问答系统
5.1 阅读理解
5.2 检索式问答
5.3 基于知识图谱问答
5.4 基于知识图谱问答
- NLP新手逆袭记录—【对话系统】理论
- 对话系统实战篇
六、文本生成
七、Text-to-SQL
- NLP新手逆袭记录—【Text-to-SQL】理论
- Text-to-SQL实战篇
八、文本纠错
- NLP新手逆袭记录—【文本纠错】理论
- 文本纠错实战篇
九、文本挖掘
- NLP新手逆袭记录—【文本挖掘】理论
- 文本挖掘实战篇
十、知识蒸馏
- NLP新手逆袭记录—【Bert压缩】理论
- 知识蒸馏实战篇
十一、模型加速
11.1 CTranslate2
11.2 optimum
十二、OCR
12.1 pytesseract
12.2 hn_ocr
12.3 PaddleOCR
十三、TTS
13.1 pyttsx3
13.2 PaddleSpeech
- PaddleSpeech理论篇
13.3 tensorflow_tts
13.4 KAN_TTS
十四、提示词
- NLP新手成长记录 —— 【提示词】实践
- 提示词实践篇
十五、嵌入
- NLP新手成长记录 —— 【嵌入】理论
- 嵌入实践篇
NLP 实用工具
- chaizi:一种汉语拆字词典工具
- cn2an:一种中文数字与阿拉伯数字相互转换工具
- cocoNLP:一种提取人名、地址、邮箱、手机号、手机归属地等信息的工具,包含rake短语提取算法
- difflib.SequenceMatcher:一种文本查重工具
- Entity_Emotion_Express:一种词汇情感值工具
- jieba_fast:一种中文分词工具
- JioNLP:一种中文NLP预处理工具
- ngender:一种根据名字判断性别的工具
- pdfplumber:一种pdf内容解析工具
- phone:一种中国手机归属地查询工具
- PrettyTable:一种生成美观ASCII格式表格的工具
- Pypinyin:一种汉字转拼音工具
- Rank-BM25:一种基于bm25算法的工具
- schedule:一种最全面的Python定时任务工具
- similarity:一种相似度计算工具
- SnowNLP:一种中文文本预处理工具
- Synonyms:一种中文近义词工具
- textfilter:一种中英文敏感词过滤工具
- 一种中文缩写库工具