#自然语言处理

flair - 一个易用的最先进自然语言处理和文本嵌入框架,支持多语言模型应用
Flair自然语言处理文本嵌入PyTorch情感分析Github开源项目
Flair 是一个强大的自然语言处理库,支持命名实体识别、情感分析、词性标注等多种功能,并且支持多种语言。通过简易接口,用户可以轻松使用和整合多种词和文档嵌入,基于 PyTorch 框架进行模型训练和实验。Flair 还对生物医学文本有特殊支持,并提供最新的命名实体识别模型,性能媲美甚至超过当前最优结果。用户可以在 Hugging Face 平台上访问并试用这些模型。
spago - Go语言编写的轻量级深度学习和自然语言处理库
SpagoGo深度学习自然语言处理机器学习Github开源项目
Spago是一个用纯Go语言编写的机器学习库,支持自动微分、前馈层、循环层和注意力层等架构,适用于深度学习和自然语言处理。它旨在减少对生产环境中Python的依赖,通过独立的可执行文件简化部署,已在多个项目中成功应用。特别适合需要纯Go实现NLP功能的开发者。
opennlp - Apache OpenNLP:优化您的自然语言处理任务的顶级工具
Apache OpenNLP自然语言处理机器学习Java模型Github开源项目
Apache OpenNLP是一个用Java编写的机器学习工具包,用于自然语言处理,支持分词、句子分割、词性标注、命名实体识别、块解析、语法分析、共指解析和语言检测等任务。项目旨在提供成熟的NLP工具,并提供多语言预训练模型和注释资源。OpenNLP可以通过Java API或命令行使用,易于集成到如Apache Flink、Apache NiFi、Apache Spark等分布式处理管道中。
link-grammar - 多语言句法分析工具
Link Grammar Parser解析器句法结构英语自然语言处理Github开源项目
Link Grammar Parser 支持多种语言的句法解析,包括英语、泰语、俄语、阿拉伯语和波斯语等。通过连字符(边)构成的图展示句子的语法结构,提供比传统解析器更详尽的信息。该项目于卡内基梅隆大学开发,现在支持多线程和UTF-8,性能和安全性显著提升。支持多种编程语言API,并包含命令行工具和生成语句的实验系统。该项目在LGPL许可下开放,适用于私人和商业用途。更多信息请访问官方网页。
awesome-bioie - 免费工具和方法助力提取非结构化生物医学数据中的信息
BioIELLMs自然语言处理生物医学数据BERTGithub开源项目
这个开源项目提供了一系列无需付费且许可要求低的资源,旨在从非结构化生物医学数据和文本中提取结构化信息。随着语言模型如BERT和GPT-4的引入,生物信息提取方法得到了显著优化。项目涵盖多个方面,包括研究概述、活跃群组、工具和数据集,所有资源均公开且积极维护。
medspacy - 临床NLP工具库,提供多语言支持和多功能文本处理
medspaCyspaCy临床文本处理自然语言处理医学NLPGithub开源项目
medspacy是一款基于spaCy框架的临床NLP工具库,提供句子分割、上下文分析、属性识别和章节检测等模块化功能。它适用于临床文本的处理和分析,支持多语言并鼓励扩展更多语言规则。各模块可独立使用,包括概念提取、实体后处理和数据可视化等功能。
clause - 多功能语义理解平台,助力智能客服与自动化流程
ClauseChatopera语义理解聊天机器人自然语言处理Github开源项目
Clause 是由 Chatopera 团队开发的语义理解系统,基于深度学习和自然语言处理技术,帮助开发者快速构建聊天机器人。支持多机器人管理、自定义词典和意图、会话周期管理及高并发访问。服务端采用 C++ 实现,提供 Docker 镜像部署,并支持 Java、Python 和 Node.js 等多种语言 SDK。Clause 为企业提供低成本、高效的客服和自动化服务解决方案。
kss - 韩语字符串处理工具包,支持自然语言处理和数据分析
Kss自然语言处理数据预处理数据分析PythonGithub开源项目
Kss提供多种韩语字符串处理功能,适用于自然语言处理、数据预处理和数据分析等领域。工具设计简洁易用,支持分词、关键词提取、拼音转换等模块,用户可通过简单代码调用实现复杂字符串操作。Python、Java等多种编程语言兼容性强,并支持良好的向后兼容。
pycantonese - 适用于粤语NLP的Python库
PyCantonese粤语语言学自然语言处理语料库词性标注Github开源项目
PyCantonese是一个专为粤语语言学和自然语言处理设计的Python库,具有语料库访问、粤拼转换、文本解析、分词和词性标注等功能。项目提供详细文档和快速入门,支持通过PyPI安装,并有活跃的社区持续优化。
textaugment - 短文本分类的全球增强方法
TextAugment增强文本分类自然语言处理Python库Github开源项目
TextAugment是一个Python 3库,旨在提升自然语言处理应用中的文本处理能力。借助于NLTK、Gensim和TextBlob等工具,TextAugment能生成合成数据,从而提升模型性能。这个库支持多种增强方法,如Word2vec、WordNet和RTT,并可轻松集成到PyTorch、TensorFlow和Scikit-learn等机器学习框架中。无论是词义替换还是混合增强方法,TextAugment都能为短文本分类任务提供有效的解决方案。
sentiment-analysis - 多种中文情感分析方法及实现途径
Sentiment Analysis情感分析自然语言处理文本分类深度学习Github开源项目
该页面介绍了中文情感分析的三种类型:基于情感词典、传统机器学习和深度学习的方法,并展示了四种实现方式:词典法、Bayes法、ALBERT与TextCNN结合及其emoji扩展。适合自然语言处理和文本分类爱好者深入了解情感分析的实现手段。
SceneGraphParser - Python工具包,用于解析自然语言句子生成场景图
SceneGraphParser依赖解析自然语言处理spaCy图像表示Github开源项目
SceneGraphParser基于依存解析,通过纯Python实现,将自然语言句子解析为场景图。图中的节点为名词(包含修饰词如限定词或形容词),边为名词之间的关系。与斯坦福场景图解析器不同,SceneGraphParser具有易用的用户界面和易配置的设计。目前仅支持spaCy作为后台。工具提供了简单的`parse`函数调用和表格式结果展示,便于集成到任何基于Python的项目中。项目正在开发中,所有API可能会有变动,欢迎提交问题或提供帮助。
fugashi - 日语分词和形态分析的Cython高效解决方案
fugashiMeCab日本分词UniDic自然语言处理Github开源项目
fugashi是一个基于MeCab的Cython包装器,为Python用户提供高效的日语分词和形态分析功能。它支持Linux、OSX和Windows平台,并推荐使用易于安装的UniDic词典。用户可以通过pip轻松安装fugashi及其词典,实现高效的日语文本处理。除了标准词典,fugashi还支持自定义词典,同时为研究人员提供引用支持,满足不同用户需求。
MachineLearning-DeepLearning-Code-for-my-YouTube-Channel - 自然语言处理和深度学习模型微调开源代码合集
自然语言处理机器学习深度学习YouTube频道模型微调Github开源项目
本项目汇集了自然语言处理和深度学习模型微调的开源代码,涵盖多种模型如Mistral、Falcon、DeBERTa和BERT,应用场景横跨Amazon评论数据集、Kaggle竞赛和跨语言命名实体识别等。项目内容适合从初学者到专业研究人员,提供前沿技术和最佳实践,帮助提升模型性能和解决实际问题。通过详尽的代码注释和YouTube视频,用户可以清晰理解复杂概念和操作步骤,高效掌握深度学习技巧。
php-text-analysis - PHP文本分析库:支持信息检索与自然语言处理
php-text-analysis自然语言处理文本分类情感分析词干提取Github开源项目
该库提供多种工具用于文档分类、情感分析、文档比较、频率分析、词语切分、词干提取等功能。通过composer轻松安装并集成,支持自定义分词器、正则化和频率分布。该库还包括关键词提取与高级的情感分析工具,为开发者提供强大的文本分析能力。详细文档与相关书籍可在GitHub页面找到,欢迎贡献。
tock - 开源AI平台,兼容多种自然语言处理工具并支持多渠道集成
TockAI平台自然语言处理聊天机器人集成Github开源项目
Tock是一个开源对话式AI平台,支持OpenNLP、Stanford、Rasa等自然语言处理工具,并提供Tock Studio界面用于故事构建和分析。平台支持Kotlin、Nodejs、Python和REST API的对话DSL,内置Messenger、WhatsApp、Google Assistant、Alexa、Twitter等多渠道连接器,并提供React和Flutter的Web/移动端集成工具包。支持云端和本地Docker部署。访问doc.tock.ai获取更多信息和案例演示。
malaya - 马来西亚语自然语言处理库
MalayaPyTorch自然语言处理Python预训练模型Github开源项目
Malaya是一个由PyTorch驱动的功能强大的马来西亚语自然语言处理库,提供预训练模型和详细文档。支持Python 3.6及以上版本,并建议通过virtualenv进行开发。用户可以方便地通过PyPI安装,并选择合适的PyTorch版本。项目得到了KeyReply、Nvidia和Tensorflow Research Cloud的支持,提供充足的计算资源。欢迎各类形式的贡献,不仅限于代码。
BambooAI - 利用大语言模型简化数据分析与交互
BambooAI数据分析大语言模型自然语言处理Python编程Github开源项目
BambooAI是一款轻量级库,利用大型语言模型(LLMs)提供自然语言交互性能,支持数据集查询、互联网搜索和外部API集成。用户可通过简单的英语输入生成并执行数据分析和可视化的Python代码,无需广泛的编程知识。该工具旨在简化数据分析流程,提高数据分析师的工作效率。
Awesome-Diffusion-Models - 扩散模型资源与研究的全面综述
Diffusion Models机器学习图像生成自然语言处理数据生成Github开源项目
提供全面的扩散模型资源与研究论文,包括入门帖子、视频、讲座和教程笔记本。涵盖图像生成、分类、分割、音频处理和自然语言处理等应用领域,适用于机器学习和深度学习研究者。访问本页,获取更多详细信息与最新进展,提升对扩散模型的理解与应用。
Diffusion-Models-Papers-Survey-Taxonomy - 扩散模型的全面方法与应用概述
Diffusion ModelsACM Computing Surveys算法分类计算机视觉自然语言处理Github开源项目
本文系统梳理了扩散模型的最新进展,涵盖算法和应用分类,包括计算机视觉、自然语言处理及医疗图像重建等领域。项目持续更新,整合最新研究成果。读者将收获从无监督学习到高分辨率图像生成及多模态学习的丰富知识,掌握这一前沿技术。
LLM-PowerHouse-A-Curated-Guide-for-Large-Language-Models-with-Custom-Training-and-Inferencing - 大型语言模型的定制训练和推理指南
LLM PowerHouse自然语言处理机器学习深度学习PythonGithub开源项目
LLM-PowerHouse项目为开发人员、研究人员和爱好者提供一站式指南,通过定制化训练和推理优化大型语言模型(LLMs)。包括基础知识、先进技术、模型压缩、优化策略和实例代码,适用于高效智能的自然语言理解应用。
ML-ProjectKart - 机器学习和人工智能的优质开源项目集合
ML-ProjectKart机器学习深度学习自然语言处理计算机视觉Github开源项目
这个平台展示了多种机器学习、深度学习、计算机视觉和自然语言处理项目,帮助不同水平的用户熟练掌握ML/AI算法。技术从业人员可以通过遵循贡献指南参与项目贡献,获取实践经验并提升技能,推动开源社区的持续发展。
AIAS - 专为图像识别和自然语言处理设计的高效SDK集合,提升开发效率
AIAS图像识别OCR自然语言处理机器学习Github开源项目
AIAS提供多种图像识别和自然语言处理SDK,包括OCR工具、动物分类、单目深度估计等图像处理功能,以及词向量、机器翻译、情感分析等自然语言处理应用。该项目旨在提升开发效率,满足多种业务需求。
gpt-2 - GPT-2模型展现自然语言处理新境界
GPT-2语言模型自然语言处理机器学习OpenAIGithub开源项目
GPT-2是OpenAI开发的自然语言处理模型,展现了无监督学习在多任务处理中的卓越能力。项目开源了模型代码和预训练模型,便于研究人员探索其潜力。尽管性能出色,使用时仍需审慎评估其适用性,尤其是在安全关键领域。该项目也鼓励深入研究GPT-2的行为特征及其潜在影响。
Yi-1.5 - Yi模型的升级版,通过500B高质量语料预训练和300万样本微调而来
Yi-1.5大语言模型开源人工智能自然语言处理Github开源项目
Yi-1.5是Yi模型的升级版,通过500B高质量语料预训练和300万样本微调而来。它在编码、数学、推理和指令跟随方面有显著提升,同时保持了优秀的语言理解和阅读能力。该系列提供34B、9B和6B三种规模,支持多种部署方式和fine-tuning。Yi-1.5以Apache 2.0许可开源,为AI领域提供了强大灵活的大语言模型选择。
langchain-nextjs-template - LangChain与Next.js集成的AI应用开发模板
LangChainNext.jsAI开发模板自然语言处理Github开源项目
此开发模板整合LangChain和Next.js,展示多种AI应用场景的实现方法。包括基础聊天、结构化输出、复杂问题解答和检索增强生成等功能。模板支持流式响应,集成Vercel AI SDK,并提供LangGraph.js智能工作流示例。适合开发者快速构建和部署AI驱动的应用程序。
llama2.c - 轻量级Llama 2推理引擎 支持多平台高性能部署
Llama 2AI模型自然语言处理开源项目人工智能Github
llama2.c是一个基于Llama 2的开源轻量级推理引擎,支持在Linux、BSD、macOS和Windows等多平台上运行。它提供高性能CPU和GPU推理,并可利用OpenBLAS、Intel MKL等加速库。该项目旨在通过部署小型网络化LLM,在资源受限环境(如学校图书馆)中实现AI应用,推动AI技术的普及和集体智能的发展。
awesome-chatgpt-prompts - ChatGPT提示词大全 - 解锁AI对话无限可能
ChatGPT提示词AI对话GitHub自然语言处理Github开源项目
Awesome ChatGPT Prompts是一个开源项目,收录了丰富多样的ChatGPT提示词。项目涵盖各类角色扮演和任务场景提示,如Linux终端、英语翻译、面试官等,旨在充分发挥ChatGPT的对话潜力。此外还提供提示词生成器、桌面应用等工具,以及提示工程相关电子书资源。用户可直接使用或贡献创意,共同探索AI对话的无限可能。
transformers.js - 浏览器端运行先进机器学习模型的JavaScript库
Transformers.js机器学习ONNX Runtime自然语言处理计算机视觉Github开源项目
Transformers.js是一个JavaScript库,可在浏览器中直接运行Hugging Face的Transformers模型,无需服务器。该库支持自然语言处理、计算机视觉、音频处理和多模态任务,使用ONNX Runtime执行模型。它的设计与Python版Transformers功能相同,提供简单API运行预训练模型,并支持将自定义模型转换为ONNX格式。
llama-models - Meta推出的开放大型语言模型Llama
Llama大语言模型开源人工智能自然语言处理Github开源项目
llama-models是Meta开发的开放大型语言模型项目,为AI开发者、研究人员和企业提供易用的工具。项目包含Llama 2、Llama 3和Llama 3.1等多个版本,支持不同模型规模和上下文长度。llama-models注重开放性、生态系统支持和安全性,为AI创新与负责任发展奠定基础。
GLiNER - 通用轻量级命名实体识别模型
GLiNER命名实体识别自然语言处理机器学习BERTGithub开源项目
GLiNER是一个通用轻量级的命名实体识别模型,采用双向转换器编码器架构。它能识别任意类型的实体,填补了传统NER模型和大型语言模型之间的空白。GLiNER具有灵活性高、体积小、效率高的特点,适用于资源受限的场景。该模型支持自定义实体类型,可应用于信息提取、文本分类等多种自然语言处理任务。
Llama3-Chinese-Chat - 基于Llama 3的中英双语优化大语言模型
Llama3Chinese自然语言处理人工智能语言模型Github开源项目
Llama3-Chinese-Chat项目基于Meta-Llama-3-8B-Instruct模型开发,采用ORPO方法优化训练,大幅提升中英双语交互能力。该模型具备角色扮演、工具使用等功能,提供多种版本选择。最新v2.1版本在数学、角色扮演和函数调用方面性能显著提升,训练数据集扩充至10万对。项目同时提供Ollama模型和量化版本,便于快速部署使用。
sentence-transformers - 多语言文本和图像嵌入向量生成框架
Sentence Transformers自然语言处理深度学习向量表示预训练模型Github开源项目
sentence-transformers是一个基于transformer网络的框架,用于生成句子、段落和图像的向量表示。该项目提供了多语言预训练模型,支持自定义训练,适用于语义搜索、相似度计算、聚类等场景。这个开源工具在自然语言处理和计算机视觉任务中表现出色,为研究人员和开发者提供了便捷的嵌入向量生成方案。
bricks - 开源自然语言处理模块库 提升文本分析效率
自然语言处理开源项目代码模块文本分析bricksGithub
bricks是一个开源自然语言处理模块库,提供多种文本分类器、提取器和生成器。开发者可利用bricks实现语言检测、情感分析、复杂度评估等文本增强功能。该项目支持独立使用,也可与refinery无缝集成,为文本分析提供灵活解决方案。
Awesome_Mamba - Mamba状态空间模型在医学图像分析及多领域的应用进展
Mamba模型状态空间模型计算机视觉自然语言处理医学图像分析Github开源项目
Awesome_Mamba项目汇集了Mamba状态空间模型在多个领域的应用资源,包括医学图像分析、远程感应、语音和视频处理等。该项目提供最新研究论文和GitHub代码仓库链接,涵盖架构重设计、创新应用等内容。项目持续更新,为研究人员和开发者提供Mamba模型在各领域最新进展的综合参考。
BLOOM - 开发的多语言、大规模开放科学语言模型
AI开发模型训练AI工具BloomModeltransformers自然语言处理PyTorch模块模型配置热门
作为致力于通过开源和开放科学推进AI发展的平台,BLOOM提供包括BloomModel在内的多款AI模型,充实的文档与代码资源助力研究人员与开发者更好地探索与应用前沿AI技术。