#NLP

happy-transformer - 便捷调优与推理NLP Transformer模型
Happy TransformerNLP文本生成文本分类词预测Github开源项目
Happy Transformer提供简单的方法来调优和推理NLP Transformer模型,主要功能包括DeepSpeed训练、Apple的MPS训练及推理、WandB训练追踪以及直接推送模型到Hugging Face的Model Hub。支持的任务涵盖文本生成、文本分类、单词预测、问答、文本到文本、下一句预测和标记分类。
awesome-bangla - Bangla语言的计算工具与资源合集
BanglaNLPDatasetBangla-KeyboardCorpusGithub开源项目
这个项目集合了Bangla(孟加拉语)自然语言处理相关的各种工具、数据集和资源,旨在帮助研究人员和爱好者。内容涵盖输入法键盘、自然语言处理库、语音和文本数据集、词典与翻译工具、OCR/HTR工具、多模态工具,以及编程语言资源。为用户提供从打字工具到语音识别和情感分析等方面的应用支持。欢迎贡献,共同推动Bangla计算的发展。
awesome-semantic-search - 语义搜索与语义相似性全面资源
Semantic SearchSemantic SimilarityNLPText EmbeddingAIGithub开源项目
综合性语义搜索和相似性资源库,包含多领域的学术论文、工具和数据集,适用于搜索引擎优化和信息检索研究,不仅限于文本,还涵盖图像、语音等应用。
similarity-search-kit - 隐私为先的iOS和macOS本地文本嵌入与语义搜索工具
SimilaritySearchKitNLP本地文本嵌入语义搜索SwiftGithub开源项目
SimilaritySearchKit是一个Swift包,支持iOS和macOS应用,实现本地文本嵌入和语义搜索。该工具强调速度、可扩展性和隐私,内置多种NLP模型和相似度度量,开发者可快速创建功能强大的应用,同时确保数据本地存储,保护隐私。适用于隐私优先的文档搜索引擎、离线问答系统和文档聚类推荐引擎。安装简单,支持多种嵌入模型和距离度量。
dodrio - 交互式工具帮助NLP研究者分析Transformer模型的注意力权重
DodrioNLPTransformer模型交互式可视化文本分析Github开源项目
Dodrio是一个交互式可视化系统,旨在帮助NLP研究人员分析和比较Transformer模型中的注意力权重。用户可查看实时演示、下载代码并本地运行。由Jay Wang、Robert Turko和Polo Chau开发,支持个性化模型和数据集的可视化。
interpret-text - 基于Interpret的开源NLP模型解释工具,支持文本模型分析
Interpret-TextNLP文本解释可解释性技术互动可视化仪表板Github开源项目
Interpret-Text是一个开源工具包,基于Interpret Python包,扩展了对文本模型的支持,提供SDK和示例Jupyter笔记本。用户可以使用全球和局部解释工具,分析和解释机器学习模型的预测结果。核心功能包括社区驱动的创新技术、统一API和互动式可视化仪表盘,适用于开发者、数据科学家、业务高管和研究人员,通过多种解释器和NLP应用场景,简化模型解释和审计过程。
awesome-transformer-nlp - 精选Transformer和迁移学习在自然语言处理的资源
GPTBERTTransformerNLPChatGPTGithub开源项目
该资源库汇集了关于自然语言处理 (NLP) 的顶级深度学习资料,重点包括生成预训练Transformer(GPT)、双向编码器表示(BERT)、注意力机制、Transformer架构、ChatGPT及其在NLP中的迁移学习应用。包含大量研究论文、文章、教程及工具,为研究人员和开发人员提供最新的Transformer技术与应用。此系列资源帮助了解和掌握最新的NLP模型及实现方法,提高自然语言处理任务的性能与效率。
rasa_chatbot_cn - 基于Rasa 1.10.18的中文聊天机器人解决方案
Rasa对话系统rasa-nluNLP闲聊模型Github开源项目
本项目提供基于Rasa 1.10.18版本的中文聊天机器人解决方案,涵盖从安装依赖、训练模型到运行和测试的完整指南,支持命令行和HTTP Server测试。项目优化了对中文的支持,包含最新的pipeline配置,并提供交流闲聊群。
hardware-aware-transformers - 瞄准多硬件平台优化的自然语言处理Transformer模型
HATTransformerNLPPyTorch硬件感知Github开源项目
HAT项目提供基于PyTorch的硬件感知Transformer,模型大小减小至原来的3.7倍,且性能无损。通过SuperTransformer搜索优化的SubTransformer,大幅降低搜索成本,并在不同硬件平台例如Raspberry Pi和Intel Xeon上实现显著加速。支持多种机器翻译任务,并提供预处理数据和预训练模型的直接下载。
KnowLM - 支持数据处理、模型预训练、微调及知识增强的LLM框架
KnowLM大模型知识增强深度学习NLPGithub开源项目
该框架提供大型语言模型的数据处理、预训练和微调功能,包含ZhiXi、OneKE等知名模型,并具备指令处理、知识增强和幻觉检测等模块。框架持续优化,适用于信息提取和知识增强,简化语言模型的训练与应用。所有模型权重和数据集均在HuggingFace上可获得,整合EasyInstruct、EasyDetect和EasyEdit模块,提升知识推理与交互能力。
nucliadb - 专为非结构化数据设计的AI搜索数据库
NucliaDB数据库搜索引擎NLPPythonGithub开源项目
NucliaDB是一款专为存储和搜索非结构化数据设计的强大数据库。它支持向量、全文本和图形索引的混合搜索,由Rust和Python编写,能处理大规模数据集并支持多租户系统。通过Nuclia云平台,无需额外的数据提取、丰富和推理操作。其主要功能包括存储文本、文件、向量、标签和注释,进行语义搜索和高效数据导出,支持云端数据提取、资源备份及分布式搜索。
transformers-code - 对Transformers从入门到高效微调的全方位实战指南
TransformersNLP模型训练微调分布式训练Github开源项目
课程提供丰富的实战代码和案例,从基础入门到高效微调以及低精度和分布式训练。涵盖命名实体识别、机器阅读理解和生成式对话机器人等NLP任务。帮助深入理解Transformers的核心组件和参数微调技术,包括模型优化和分布式训练。适合对Transformers应用和实践感兴趣的学习者。课程在B站和YouTube持续更新,紧跟技术前沿。
FastDeploy - 多场景AI模型部署工具
FastDeployAI模型部署PaddlePaddle视觉任务NLPGithub开源项目
高性能AI模型部署工具,支持文本、视觉、语音及跨模态模型的优化,适用于云端、移动端和边缘设备。支持160多种模型,涵盖图像分类、目标检测、OCR、人脸检测、抠图、跟踪、NLP、语音合成等任务,满足多场景、多硬件、多平台的需求。
AlignLLMHumanSurvey - 更好的理解和对齐大型语言模型与人类需求的方法综述
Large Language ModelsNLP数据收集模型评估培训方法Github开源项目
本综述探讨了大型语言模型(LLMs)与人类需求对齐的研究进展,包括数据收集、训练方法和模型评估。文章展示了如何改进LLMs在理解人类指令、避免偏见和减少虚假信息方面的表现,并为研究人员和从业者提供了有价值的参考,助力LLMs更好地满足人类任务和期望。
awesome-ml-courses - 优质的免费机器学习与人工智能课程视频资源
Machine LearningArtificial IntelligenceDeep LearningStanfordNLPGithub开源项目
本项目提供由顶级人工智能研究人员和教师授课的免费高质量机器学习与人工智能课程视频。课程链接附有讲义、补充阅读材料及作业。内容涵盖基础和高级知识,适合不同背景的学习者。无论是想了解斯坦福的经典机器学习课程CS229,还是深入研究强化学习、卷积神经网络和自然语言处理等特定领域,这里都能找到相关资源。
SolidUI - AI生成图形解决方案,支持多种图表和场景构建
SolidUIAI绘图NLP深度学习图形生成Github开源项目
SolidUI结合自然语言处理和计算机图形技术,实现从文本描述到图形生成。核心特点包括简洁流程、多数据源支持、3D场景展示和容器化部署。自主研发的Vincent图表语言模型通过RLHF优化生成性能,确保图形质量和准确性。适用于快速构建可视化工具,满足高质量图形展示需求。
ABigSurvey - 自然语言处理和机器学习综述论文汇总与分析
NLPMLsurvey paperscategorizationstatisticsGithub开源项目
本文汇总了数百篇关于自然语言处理和机器学习的综述论文,并对其进行分类和数量统计,涵盖对话系统、信息检索、大型语言模型等热门主题。文章展示了1063篇论文的链接,并根据发表年份绘制了统计图表,同时生成了展示热门话题的词云。
AwesomeNLP - 从基础到前沿的NLP实战教程与学习资源
自然语言处理NLP大模型信息抽取知识图谱Github开源项目
这个开源项目提供了全面的NLP学习资源,涵盖文本分类、信息抽取、知识图谱、机器翻译等多个领域的理论和实战教程。项目为NLP初学者设计了详细的学习路径,同时也包含了大模型应用等前沿内容。资源丰富且实用,适合希望深入学习自然语言处理的人员参考。
nlp_paper_study - NLP论文学习和实战资源库
NLP论文研究知识图谱预训练模型信息抽取Github开源项目
nlp_paper_study项目是一个综合性NLP学习资源库,涵盖论文阅读方法、经典会议论文解读、理论学习和实战经验。内容包括transformer、预训练模型、信息抽取、知识图谱等多个NLP主题,从基础到前沿。项目还提供竞赛经验和实用工具介绍,帮助研究者和工程师系统掌握NLP知识,提升科研与应用能力。
awesome-adapter-resources - 大型预训练神经网络适配器方法工具和论文资源库
AdapterPEFTNLP参数高效迁移学习Github开源项目
本项目汇集了大型预训练神经网络适配器方法的关键工具和论文。涵盖自然语言处理、计算机视觉和音频处理领域的适配器技术,包括方法、组合技术、分析评估和应用。提供框架工具链接和详细调查研究,是研究人员和从业者的重要参考资源。
tokenizer - Go语言实现的自然语言处理分词库
TokenizerGo语言NLP预训练模型分词Github开源项目
Tokenizer是一个纯Go语言实现的自然语言处理分词库,支持Word level、Wordpiece和BPE等多种分词模型。该项目可用于训练新模型或微调现有模型,并兼容HuggingFace预训练模型。Tokenizer为Go开发者提供了构建NLP应用所需的工具,助力高效生产级软件开发。
Keyword Hero AI - 综合性SEO内容优化工具 提升网站搜索排名
AI工具SEO内容优化关键词研究AI写作NLP
Keyword Hero AI是一款综合性SEO内容优化工具,能分析竞争对手策略,制定内容计划,生成优化的文章大纲和内容。支持80多种语言,提供关键词研究、NLP优化、AI内容生成等功能,有助提升网站搜索排名和有机流量。适用于个人博主和企业营销团队,可高效创建优质SEO内容。
polish-nlp-resources - 波兰语自然语言处理资源与预训练模型库
NLPPolish预训练模型词嵌入语言模型Github开源项目
该项目汇集了多种波兰语自然语言处理资源,包括词嵌入、语言模型和机器翻译模型。提供Word2Vec、FastText、GloVe等词向量,以及ELMo、RoBERTa等上下文嵌入模型。还包含压缩词向量和Wikipedia2Vec等特色资源。涵盖从基础词向量到预训练模型的多个层面,为波兰语NLP研究和应用提供支持。
HugNLP - 基于Hugging Face的全面NLP开发应用框架
HugNLPNLP预训练语言模型指令微调应用开发Github开源项目
HugNLP是基于Hugging Face的NLP开发应用库,为研究人员提供便利高效的开发环境。它集成了丰富的模型、处理器和应用模块,支持知识增强预训练、提示微调、指令调优等技术。该框架还包含参数高效学习、不确定性估计等工具,可用于构建多种NLP应用。HugNLP获得CIKM 2023最佳演示论文奖。
skweak - Python开源工具助力NLP弱监督学习
skweak弱监督NLP标注函数聚合模型Github开源项目
skweak是一个基于Python的开源工具包,通过弱监督方法解决NLP中标注数据稀缺问题。用户可定义多个标注函数自动标注文档,并聚合结果生成标注语料库。支持序列标注和文本分类,提供简洁API快速实现标注功能。与SpaCy集成,易于融入现有NLP流程。适用于资源匮乏语言、特定任务标签等场景,是NLP项目的有力助手。
cybertron - 纯Go语言实现的自然语言处理工具包 支持多种预训练模型
CybertronNLPGo语言Transformer模型机器学习Github开源项目
Cybertron是一个基于spaGO构建的纯Go语言包,为开发者提供简单接口使用NLP技术,无需其他编程语言或复杂框架。该项目支持使用HuggingFace模型库中的预训练Transformer模型,主要用于推理。Cybertron兼容BERT、ELECTRA等多种模型,可应用于文本分类、问答、文本生成等任务。它支持服务器模式和库模式两种使用方式,为Go开发者提供了便捷的NLP解决方案。
Recognizers-Text - 微软开源的多语言实体识别与解析库
Microsoft Recognizers Text实体识别多语言支持开源项目NLPGithub
Recognizers-Text是微软开发的开源工具库,专门用于多语言环境下的实体识别和解析。它支持识别数字、单位、日期和时间等实体,适用于中文、英文等多种语言。该库为LUIS等微软平台提供底层支持,同时提供C#、JavaScript等多种编程语言的独立包。目前该项目正在不断扩展对更多语言的支持。
node-postal - 为 Node.js 提供多语言地址解析和标准化功能的库
node-postallibpostal地址解析NLPNodeJSGithub开源项目
node-postal 是 libpostal 的 Node.js 绑定库,提供高效的多语言物理地址解析和标准化功能。它包含地址扩展和解析 API,易于集成到 Node.js 项目中。这个库支持多个 Node 版本,并附带详细的安装和故障排除指南。作为强大的地址处理工具,node-postal 适用于各类地理数据应用开发。
jpostal - libpostal的Java绑定库,高效多语言地址解析与标准化
jpostallibpostalJava绑定地址解析NLPGithub开源项目
jpostal是libpostal的Java/JNI绑定库,为Java项目提供高效的多语言地址解析和标准化功能。该库支持地址扩展和组件解析,适用于全球物理地址处理和地理编码查询优化。jpostal易于集成,构建过程简单,兼容Linux和Mac OSX系统。项目提供详细的使用说明和测试方法,便于开发者快速上手。
wink-nlp-utils - 轻量级自然语言处理工具集 简化文本预处理和分析
NLP文本处理分词句子边界检测停用词Github开源项目
wink-nlp-utils是一个轻量级自然语言处理工具集,提供36多个实用函数。支持姓名提取、语料库生成、句子分割、分词和停用词移除等功能。适用于语义搜索和文本分类等任务的预处理,为开发人员提供简洁API。该项目是wink开源家族的一员,专注于文本预处理和分析,在npm上可用,具有完整的文档和测试覆盖率。支持Node.js环境。
checklist - 全面评估NLP模型行为的测试框架
CheckListNLP测试行为测试模型评估Github开源项目
CheckList是一个用于全面测试NLP模型的框架,它提供了多种测试类型和工具。主要功能包括生成测试数据、扰动现有数据、创建和运行各类测试等。通过CheckList,研究人员和开发者可以更全面地评估NLP模型的行为表现,识别潜在问题和偏差。该项目包含详细教程和代码示例,支持多语言测试,并可与主流NLP库集成。
langtest - 开源工具助力语言模型全面测试与优化
LangTest语言模型测试NLP模型评估AI偏见检测Github开源项目
LangTest是一款强大的开源工具,专为语言模型的测试和优化而设计。该工具提供超过60种测试类型,全面评估模型的鲁棒性、偏见、表示、公平性和准确性。LangTest兼容多个主流NLP框架,如Spark NLP、Hugging Face和Transformers。此外,它还能对OpenAI、Cohere等大型语言模型进行问答、毒性检测和临床测试等方面的评估。通过使用LangTest,数据科学家可以开发出更安全、可靠和负责任的自然语言处理模型。
lit - 自学AI实践者必备技术书籍精选
AINLP机器学习编程数据科学Github开源项目
lit项目为自学AI实践者提供了精心策划的技术书籍集锦。涵盖人工智能、数据科学、计算机科学、编程等多个领域的经典著作,从入门到进阶兼具理论深度和实践指导。项目创建者基于个人经验对每本书进行简要介绍,为读者选择合适学习材料提供参考。这一资源有助于系统全面地学习AI相关知识。
nlp-de-cero-a-cien - 从零开始学习NLP,实践Hugging Face开发
NLPHugging FaceTransformers机器学习自然语言处理Github开源项目
本项目提供全面的NLP学习课程,涵盖词嵌入到Transformer模型等关键技术。7次在线课程由行业专家授课,学习者可掌握核心知识并使用Hugging Face开发应用。课程设计适合不同水平学习者,提供录像回放及社区支持。
instruction-datasets - 大语言模型指令微调数据集汇总
Instruction Tuning大语言模型数据集NLP多语言Github开源项目
该项目整理了大语言模型指令微调所需的多种数据集,包括金标准、银标准/LM生成和偏好数据集。内容涵盖多语言和多模态任务,提供指令-响应对和人类偏好评分等资源。这些数据集有助于提升模型的指令跟随、对话和任务执行能力,为NLP研究和开发提供重要参考。
simpletransformers - 快速构建和优化Transformer模型的开源工具
Simple TransformersNLPHugging Face机器学习深度学习Github开源项目
simpletransformers是一个基于Hugging Face Transformers的开源工具,通过简化的API让用户能够用少量代码快速构建和优化Transformer模型。该库支持文本分类、命名实体识别、问答系统等多种NLP任务,为研究人员和开发者提供了便捷的方式来应用这些强大的模型。simpletransformers具有直观的接口和丰富的功能,可用于各类自然语言处理场景,有效降低了使用Transformer模型的门槛。