#NLP

allennlp - 基于PyTorch的Apache 2.0自然语言处理研究库
Github开源项目PyTorchNLPAllenNLPAI2 TangoOptuna
AllenNLP是一个基于PyTorch的Apache 2.0自然语言处理研究库,专注于开发先进的深度学习模型。该项目已进入维护模式,并将在2022年12月16日前继续修复问题和响应用户提问。推荐的替代项目包括AI2 Tango、allennlp-light、flair和torchmetrics,以帮助用户更好地管理实验和使用预训练模型。
stanza - Python自然语言处理库,支持多种语言
Github开源项目PythonNLPStanzaStanford CoreNLP生物医学
Stanza是斯坦福NLP团队开发的Python自然语言处理库,支持60多种语言,提供高精度的自然语言处理工具,并可与Java Stanford CoreNLP软件集成。新推出的生物医学和临床英文模型包可以处理生物医学文献和临床笔记的句法分析和命名实体识别。Stanza可通过pip和Anaconda安装,适用于Python 3.6及以上版本,提供详细的文档和在线示例,帮助用户快速入门并高效使用。
nlp-recipes - 使用最新深度学习模型加速自然语言处理系统开发
Github开源项目深度学习BERTtransformersNLPAzure Machine Learning
该资源库提供构建NLP系统的示例和最佳实践,重点关注最新的深度学习方法和常见场景,如文本分类、命名实体识别和文本摘要。支持多语言,特别是利用预训练模型应对不同语言任务。内容基于与客户的合作经验,旨在简化开发过程,帮助数据科学家和工程师快速部署AI解决方案。
awesome-project-ideas - 精选深度学习与机器学习项目创意
Github开源项目图像处理NLPDeep LearningMachine Learning推荐系统
提供30多个深度学习和机器学习项目创意,从入门到研究级别,适用于学术界和工业界。涵盖黑客松创意、文本处理、时间序列预测、推荐系统、图像和视频处理、音乐和音频处理等多个领域,帮助开发者和研究人员实践最新技术。
DeepPavlov - 跨平台多功能的开源对话AI库
Github开源项目PyTorch开源对话系统DeepPavlovNLP
DeepPavlov是一个基于PyTorch的开源对话AI库,适用于生产级聊天机器人、复杂对话系统开发和自然语言处理研究。支持Linux、Windows和MacOS平台,兼容Python 3.6至3.11版本。提供丰富的预训练NLP模型,如命名实体识别、意图分类、文本问答和句子相似度等,支持CLI和Python接口,便于模型训练、评估和推断。通过REST API和Socket API实现与AWS等服务的无缝集成。
OpenPrompt - 开源Prompt学习框架,兼容多种预训练模型和自定义模板
Github开源项目PythonNLPOpenPromptPrompt-learningPre-trained Language Models
OpenPrompt是一个开源的Prompt学习框架,提供灵活且可扩展的解决方案,兼容Huggingface transformers等预训练模型。支持多种提示方法,如模板化和Verbalizer,简化Prompt学习和模型训练。支持UltraChat等新项目,广泛应用于各类NLP任务。
awesome-ai-ml-dl - 涵盖人工智能、机器学习和深度学习的综合资源和学习平台
Github开源项目AIJavaNLPMLDL
awesome-ai-ml-dl项目集中于人工智能、机器学习及深度学习领域,提供全面的学习笔记与精选资源。适用于工程师、开发者和数据科学家等专业人员,帮助他们更有效地获取知识和资源。此项目促进了学习的乐趣并使相关资料易于获取。
nlp - NLP基础知识与应用案例介绍
Github开源项目自然语言处理机器学习NLPfasttext开源书籍
介绍自然语言处理(NLP)的基础知识和实际应用,包括常用数据集、机器学习模型评价方法、词袋模型、TFIDF、Word2Vec、Doc2Vec等技术,以及多层感知机、fasttext和LDA在文档分类和主题建模中的应用。还展示了对美食评语的情感分析,说明了NLP在文本理解与安全领域的重要性。此外,还介绍了一本开源NLP入门书籍的写作和更新过程,适合想深入了解NLP技术的读者。
spacy-llm - spaCy与大语言模型整合的NLP组件
Github开源项目OpenAIspaCyLarge Language ModelsNLPspacy-llm
该模块将大型语言模型(LLMs)集成到spaCy中,实现了快速原型设计和提示生成,无需训练数据即可输出可靠的NLP结果。支持OpenAI、Cohere、Anthropic、Google PaLM、Microsoft Azure AI等API,并兼容Hugging Face上的开源LLMs,如Falcon、Dolly、Llama 2等。还支持LangChain,提供命名实体识别、文本分类、情感分析等多种现成任务。用户可通过spaCy的注册表轻松实现自定义功能。该模块结合LLM的强大功能与spaCy的成熟基础,提供灵活高效的NLP解决方案。
Promptify - 高效解决NLP问题的工具
Github开源项目PythonLLMsNLPGPT-3Promptify
Promptify使用户可以使用GPT、PaLM等流行生成模型,轻松生成各种NLP任务提示。无需训练数据,通过简单的API调用就能快速实现多种NLP任务,如命名实体识别、文本分类和问题生成。其中包括优化提示以降低成本。适用于教育、医疗和企业等多个领域。
Transformers-Recipe - 学习与应用Transformer的指南
Github开源项目计算机视觉强化学习TransformerNLPAttention
该指南为自然语言处理(NLP)及其他领域的学习者提供了丰富的Transformer学习资源,包括基础介绍、技术解析、实际实现和应用。通过精选的文章、视频和代码示例,帮助用户深入掌握Transformer模型的理论与实践。
awesome-nlp - 一个综合NLP(自然语言处理)资源库,集成了包括研究摘要、教程、工具库在内的全方位资料
Github开源项目Python深度学习自然语言处理机器学习NLP
awesome-nlp是一个综合NLP(自然语言处理)资源库,集成了包括研究摘要、教程、工具库在内的全方位资料。与顶尖实验室合作,保持在NLP领域的前沿,提供机器翻译、情感分析等多样化应用。支持多语言处理,如中文、韩文、阿拉伯文等,为全球用户提供适用资源,是一个知名的NLP信息平台。
Awesome-Code-LLM - 全面梳理了代码领域的语言模型研究,涵盖最新的论文和研究成果
Github开源项目LLMNLPLanguage Models for CodeCode GenerationSoftware Engineering
《Awesome-Code-LLM》项目全面梳理了代码领域的语言模型研究,涵盖最新的论文和研究成果。这是一个极佳资源,旨在增强NLP与软件工程使用中语言模型的效果和效率,提供详尽的研究资源,非常适合机器学习初学者和NLP新手深入了解该领域。
llms_paper - 一个专注于顶会论文的记录与整理,涵盖多模态、PEFT等多个领域的高级学术资源库
Github开源项目LLMs搜索引擎多模态NLP推荐系统
llms_paper是一个高级学术资源库,专注于顶会论文的记录与整理,涵盖多模态、PEFT、小样本QA问答等多个领域。该项目深入探讨了LLMs在医疗、法律等多个行业中智能问答系统的应用,并展示了LLMs在多模态交互及数据解析方面的有效性。为算法工程师和研究人员提供最新的研究成果与实用技术笔记,是深入LLMs领域的理想资源。
NLP-Tutorials - 从搜索引擎到预训练模型的全面教程
Github开源项目深度学习神经网络自然语言处理机器学习NLP
NLP教程全面介绍多种自然语言处理模型,涉及搜索引擎技术、词汇及句子理解,并深入探讨seq2seq、Transformer、BERT和GPT等先进模型,包括实用的代码示例和理论分析。
awesome-japanese-nlp-resources - 日语NLP资源大全,包括Python库、工具、模型与数据集
Github开源项目PythonHugging FaceNLPawesome-japanese-nlp-resourcesJapanese
本项目提供全面的日语自然语言处理(NLP)资源,包括Python库、语言模型、词典和语料库等。收录了605个GitHub仓库和820个Hugging Face模型及数据集,并附带一个搜索工具方便查找更新信息。项目定期更新,最新包括Mozc UT地名词典和Kana-Kanji转换模块。资源涵盖形态分析、句法分析、情感分析及机器翻译等,是日语NLP研究和应用的重要参考。
tensorflow-nlp-tutorial - Tensorflow 2.0 自然语言处理实用教程
Github开源项目BERTTensorflowNLP딥 러닝KoGPT-2
此项目包含一系列基于Tensorflow 2.0的自然语言处理教程。教程内容详细,基于e-Book中的理论,涵盖BERT、KoGPT-2、CTM等模型的文本分类、生成、关键词提取和话题建模实操。用户通过Colab链接即可在线练习,无需额外安装Python。该项目持续更新,提供最新的自然语言处理技术和代码示例。
shared_colab_notebooks - 提供共享和存储Google Colab笔记本的项目,涵盖多种领域包括NLP、计算机视觉和GANs
Github开源项目NLPGAN教程机器视觉Google Colaboratory
该项目旨在分享和存储各种Google Colab笔记本,包含了丰富的自然语言处理、计算机视觉和GANs领域的示例和教程。笔记本资源由作者创建或修改,适用于开发者和研究人员。用户可以找到Transformers细调、OCR自定义、3D照片修复和流媒体应用创建等实际案例,快速获取并分享高质量的Colab笔记本资源,加速科研与开发进程。
kairon - 使用低代码界面的会话型数字助理平台,助力企业实时优化用户体验
Github开源项目NLPRasaKairon数字助理对话平台
Kairon 是一个开源会话型数字转型平台,提供低代码/无代码界面,帮助企业在无需编程的情况下创建、训练、测试和部署数字助理。Kairon 集成了上下文管理系统,支持端到端的生命周期管理,实时监控性能,并提供数据分析和安全脚本注入。通过遥测功能和实时挣扎分析,Kairon 提高了用户满意度并减少用户流失,适用于多渠道和多语言的数字助理部署。了解更多关于如何通过 Docker 快速部署 Kairon。
text - TorchText自然语言处理工具包即将终止开发并发布最终版本
Github开源项目PyTorch模型数据集NLPtorchtext
TorchText将于2024年4月发布其最终稳定版0.18。这一NLP工具包包括原始文本迭代器、基本NLP构建模块、文本处理转换、预训练模型和词汇类等功能。推荐使用Anaconda安装,支持多种Python版本。指南和文档包括SpaCy、Moses等可选依赖项。提供详细教程和示例帮助用户入门。
JioNLP - 中文自然语言处理预处理与解析工具包
Github开源项目PythonLLMNLPJioNLPMELLM
JioNLP 是一个专为自然语言处理开发者设计的工具包,提供高效的预处理和解析功能。功能包括车牌号解析、时间语义解析、关键短语抽取、文本清理和数据增强。还包含 MELLM 算法,用于评估大语言模型。安装 JioNLP 后,开发者可以快速上手,提升其 NLP 研究和应用效果。
TextAttack - 为NLP模型生成对抗样本和进行数据增强的专业工具
Github开源项目模型训练NLP数据增强TextAttack对抗样本
TextAttack是一个专为自然语言处理(NLP)提供对抗攻击、数据增强和模型训练的Python框架。通过多种预定义攻击策略,用户可以更好地理解和研究NLP模型。TextAttack支持简便的命令行操作和广泛的模型与数据集,提供详细的文档和示例代码,帮助提高模型的泛化能力和鲁棒性。
pyresparser - 简历解析器:支持PDF和DOCx格式文件
Github开源项目NLPPython库信息提取pyresparser简历解析
pyresparser是一个简易的简历解析工具,可以从简历中提取姓名、电子邮件、手机号码、技能、工作经验、学校名称、学位和职位等信息。支持PDF和DOCx文件,易于集成到Python项目中。该工具使用spaCy和nltk进行自然语言处理,并提供便捷的命令行界面。更多信息和安装指南,请参阅官方文档。
cltk - 古典语言自然语言处理工具包
Github开源项目Python自然语言处理NLPCLTK古典语言
CLTK是一个用于古典语言的Python自然语言处理库,提供近20种古典语言的处理管道和模型。用户可以通过pip安装最新版本,同时提供详细的安装和开发文档,支持从源代码安装。该工具特别适用于处理历史语言的学者,填补了现有NLP框架在这一领域的空白。
natasha - 多功能俄语自然语言处理工具,支持词嵌入、句子分割、形态标注等
Github开源项目自然语言处理NLP模型优化NatashaRussian language
Natasha是一款用于解决俄语基础自然语言处理任务的工具,包括词标记、句子分割、词嵌入、形态标注、词形还原、短语规范化、句法解析、命名实体识别和事实提取。它在新闻领域的性能媲美或优于现有最佳模型。支持在CPU上运行,使用Numpy进行推理,注重模型体积、内存使用和性能。Natasha项目集成了多个库如Razdel、Navec、Slovnet和Yargy,提供统一的API,用户可在Python 3.7+环境中方便安装并快速上手使用。
transformers-tutorials - Transformers模型在自然语言处理中的应用教程
Github开源项目PyTorchHugging FaceBERTNLPTransformers
本项目提供了关于如何使用Transformers模型在自然语言处理任务中进行精细调优的详细教程,包括文本分类、情感分析、命名实体识别和摘要生成等案例。教程旨在帮助用户掌握应用最新NLP技术的技巧,并提供配套的Python代码示例和工具指南。
Transformers4Rec - 灵活高效的PyTorch兼容序列与会话推荐库
Github开源项目PyTorchNLPHugging Face TransformersTransformers4RecRecSys
Transformers4Rec是一个结合Hugging Face Transformers框架的高效库,专注于自然语言处理和推荐系统的结合。通过支持多种输入特征和模块化设计,它提供了与PyTorch兼容的高灵活性架构。集成NVTabular和Triton Inference Server,实现了全GPU加速的管道,优化了序列和会话推荐效果。其在业内竞赛中的优异表现展示了其在会话推荐任务中的高准确性。
Octopii - 个人信息泄露检测工具,自动识别和提取敏感数据
Github开源项目OCRNLPOctopiiPIIRedHunt Labs
Octopii是一款基于OCR和NLP技术的工具,能够高效扫描图像、PDF和文件中的政府ID、地址和电邮等敏感信息。支持多种扫描方式,包括本地文件系统、S3 URLs及Apache公开目录,帮助用户检测和防止个人信息泄露,增强数据安全性。
ml-road - 全面的机器学习与深度学习资源集合
Github开源项目PyTorchTensorFlowNLPDeep LearningMachine Learning
此资源库涵盖机器学习和深度学习的全面资源,包括优质课程、电子书和学术论文。通过Coursera、Stanford和Google等知名平台的课程,可深入学习基础和高级的机器学习、深度学习、自然语言处理和强化学习。同时,还提供《机器学习》和《深度学习》等电子书,便于自学和参考。适合想要提高机器学习技术水平的学生、研究人员和行业从业者。
NLP-Interview-Notes - 自然语言处理面试全攻略与实战技巧
Github开源项目NLP信息抽取命名实体识别关系抽取事件抽取
该项目汇总了自然语言处理(NLP)领域的常见面试题和详细解析,包括信息抽取、命名实体识别、关系抽取、事件抽取等方面的内容。项目内容涵盖了对隐马尔科夫模型、最大熵马尔科夫模型、条件随机场以及深度学习结合CRF等算法的详细分析,帮助学习者掌握算法原理和实际应用。此外,还提供了各类实战技巧和常见问题的解决方法,全面助力NLP面试准备。
transformers_tasks - 多种集成NLP任务的高效开源工具
Github开源项目强化学习NLP信息抽取文本匹配huggingface transformers
transformers_tasks提供了多种NLP任务的实现,基于Huggingface transformers库,用户可以便捷加载及训练模型,并根据自己数据集进行微调。包括文本匹配、信息抽取、Prompt任务等多种功能,适用于Python 3.6+和多种操作系统,满足不同NLP应用需求。
spacy-models - spaCy自然语言处理模型下载与安装指南
Github开源项目spaCy模型NLP安装依赖
此页面详细介绍了spaCy模型的下载、安装和使用方法。内容涵盖模型命名规范、版本管理以及旧版本支持。提供用于文本处理的多种模型,包括标签、解析、命名实体识别和句子分割。本页面还确保模型具备快速部署与透明管理的特性。
libpostal - 国际街道地址解析和标准化的C库
Github开源项目NLPlibpostal地址解析C库地理编码
libpostal是一款利用统计自然语言处理和开放数据来解析和标准化全球街道地址的C库。其目标是理解各国语言中的地理位置表达,帮助将自由形式的人类地址转换为适合机器处理和全文索引的标准形式,提升地理编码应用的智能性、简便性和一致性。支持Python、Ruby、Go、Java、PHP和NodeJS语言绑定,并易于扩展到其他语言。
gse - 多语言高效NLP和文本分词工具
Github开源项目多语言支持NLPGo语言gse分词算法
Gse是一款支持多种分词模式及多语言(包括英文、中文、日文等)的高效NLP和文本分词工具。它采用双数组Trie和动态规划等算法,并通过ElasticSearch和Bleve集成,提供强大的文本处理能力。项目内还支持TensorFlow的NLP和命名实体识别(NER)功能,支持用户自定义词典和词性标注。作为一个开源项目,Gse在简体中文、传统中文和其他语言的文本处理上有优异表现。
gensim - Gensim:高效的Python主题建模和文档索引工具
Github开源项目PythonNLPGensim文档相似性主题建模
Gensim是一个针对自然语言处理和信息检索的Python库,用于执行主题建模、文档索引和相似性检索。该库依靠高效的内存独立算法和多核实现,可以处理超过内存容量的大型语料库。Gensim支持LSA、LDA、RP和HDP等各种流行算法,并支持分布式计算。其直观接口和详实文档使得用户可以轻松集成与扩展,是大规模文本数据处理的优秀选择。
500-AI-Machine-learning-Deep-learning-Computer-vision-NLP-Projects-with-code - 涵盖机器学习、深度学习、计算机视觉和自然语言处理等领域的AI项目列表
Github开源项目NLPArtificial Intelligence Project ListMachine learningDeep learningComputer vision
该项目集合包括超过500个人工智能项目,涵盖机器学习、深度学习、计算机视觉和自然语言处理等多个领域。每个项目均附带代码链接,适合各层次开发者使用。项目持续更新,确保所有链接有效,用户也可提交请求和贡献代码。