#长文本处理

Awesome-LLM-Long-Context-Modeling学习资料汇总 - 长文本建模相关资源分享

1 个月前

本文汇总了大型语言模型(LLM)长文本建模相关的优质学习资源,包括论文、代码、博客等,帮助读者快速了解该领域的最新进展。

大语言模型长文本处理信息检索 Transformer优化自然语言处理 Github 开源项目

1 个月前

Chain-of-Thought Hub: 测量大语言模型的复杂推理能力

2 个月前

Chain-of-Thought Hub是一个开源的评估套件,用于测量大语言模型在多步推理任务上的能力。它通过链式思考提示技术来评估模型在数学、科学、符号推理等复杂任务上的表现。

复杂推理能力大语言模型 Chain-of-Thought LLM评估长文本处理 Github 开源项目

2 个月前

MInference：加速长上下文LLM推理的革命性技术

2 个月前

MInference是微软推出的一项创新技术，通过利用LLM注意力机制的动态稀疏特性，显著提升了长上下文大语言模型的推理速度，同时保持了模型的准确性。本文深入探讨了MInference的工作原理、性能表现以及对AI领域的潜在影响。

MInference 大语言模型动态稀疏注意力长文本处理性能优化 Github 开源项目

2 个月前

LLMLingua: 突破大语言模型推理瓶颈的高效提示压缩技术

2 个月前

LLMLingua 是一种创新的提示压缩技术，能够将大语言模型的输入提示压缩高达 20 倍，同时保持模型性能。它通过智能识别和删除非必要信息，显著提高了模型推理效率、降低了成本，并增强了长文本处理能力，为 AI 应用开发带来了革命性的突破。

LLMLingua 提示词压缩大语言模型长文本处理推理加速 Github 开源项目

2 个月前

Stella: 一个强大的中文文本编码模型

2 个月前

Stella是一个通用的中文文本编码模型，支持1024的输入长度，在多个评测基准上表现出色。本文将详细介绍Stella模型的特点、训练方法、评测结果以及使用方式。

stella模型中文文本编码长文本处理 C-MTEB 向量嵌入 Github 开源项目

2 个月前

BABILong: 突破长文本处理的新基准

2 个月前

BABILong是一个创新的基准测试,旨在评估自然语言处理模型在处理包含分散事实的超长文档时的表现。它通过将关键信息隐藏在大量无关文本中来模拟现实世界的长文本场景,为评估和改进NLP模型的长文本处理能力提供了重要工具。

BABILong 长文本处理语言模型评估推理能力数据集 Github 开源项目

2 个月前

Recurrent Memory Transformer: 突破长上下文处理的创新架构

2 个月前

Recurrent Memory Transformer (RMT) 是一种创新的神经网络架构,通过引入递归记忆机制,显著提升了Transformer模型处理长序列的能力,将有效上下文长度扩展到了200万个token,为自然语言处理领域带来了新的可能性。

Recurrent Memory Transformer 长文本处理机器学习模型自然语言处理 Hugging Face Github 开源项目

2 个月前

大型语言模型的长文本建模技术:挑战与进展

2 个月前

本文全面介绍了大型语言模型在处理长文本时面临的挑战,以及学术界和工业界在提升模型长文本建模能力方面的最新进展和技术方案,包括高效注意力机制、长度外推、长期记忆等多个方向的研究成果。

大语言模型长文本处理信息检索 Transformer优化自然语言处理 Github 开源项目

2 个月前

相关项目

Awesome-LLM-Long-Context-Modeling

本仓库收集了关于高效变换器、长度外推、长期记忆、增强检索生成（RAG）及长文本建模评估的研究论文和博客，提供专业资源用于探索长上下文模型及其挑战，并讨论优化NLP模型的创新方法，适合深度语言模型和复杂文本建模研究人员及开发者。考虑到用户搜索意图的多样性，建议在SEO描述中提及项目对长文本建模从算法到实际应用的全面影响，以及其对未来研究方向的启示。

gpt-bat

GPT BAT是一款专为GPT设计的优化工具，可以将长文本按行、按长度或按特定字符分隔，并灵活设置接口调用参数，如System提示词、User提示词和Max Tokens。兼容OpenAI和API2D接口，支持文本分段预览和Token消耗估算，处理结果将自动下载，允许重复尝试，显著提升GPT-3.5处理长文本的效率和便捷性。

LLMLingua

LLMLingua系列是一套创新的提示词压缩工具，可将提示词压缩至原长度的5%，同时保持大语言模型性能。通过小型语言模型识别并移除非必要标记，该技术有效解决长文本处理和上下文遗忘等问题，大幅降低API使用成本并提高推理效率。LLMLingua系列包含三个版本，适用于检索增强生成、在线会议和代码处理等多种场景。

recurrent-memory-transformer

Recurrent Memory Transformer (RMT)是为Hugging Face模型设计的记忆增强型循环Transformer。通过在输入序列中添加特殊记忆标记，RMT实现了高效的记忆机制，能够处理长达1M及以上的token序列。项目提供RMT实现代码、训练示例和评估工具，在BABILong等长文本基准测试中表现优异，为研究长序列处理提供了有力支持。

MInference

MInference是一项新技术，通过利用长上下文语言模型注意力机制的动态稀疏性来加速预填充过程。该技术离线确定注意力头的稀疏模式，在线近似稀疏索引，并使用优化内核动态计算注意力。在A100 GPU上，MInference实现了预填充速度提升10倍，同时保持模型准确性。它支持LLaMA-3、GLM-4等多种长上下文模型，有效处理百万级别token的上下文。

babilong

BABILong是一个用于评估自然语言处理模型长文本处理能力的基准测试。它将bAbI数据集的任务句子隐藏在PG19背景文本中，生成长达数百万标记的测试样本。该基准包含20个推理任务，涉及事实链接、归纳、演绎和计数等多个方面。BABILong为评估和改进大语言模型的长文本处理能力提供了有效工具，同时也对现有长文本模型提出了挑战。

chain-of-thought-hub

Chain-of-Thought Hub汇集了数学、科学、符号推理等多个领域的挑战性任务，旨在全面评估大型语言模型的复杂推理能力。该项目通过精选数据集和模型，为语言模型发展提供可靠参考。同时，它将链式思考提示工程视为新一代系统调用，为基于大型语言模型的应用生态系统发展奠定基础。

stella

stella是一个通用中文文本编码模型，提供base和large两个版本，支持1024长度输入。模型采用多样化训练数据和先进方法，包括对比学习、难负例处理和EWC技术。在C-MTEB基准测试中表现优异，特别是长文本编码能力突出。适用于文本分类、聚类和检索等多种自然语言处理任务。

Brevity

Brevity是一款智能文本摘要工具，可将冗长内容转化为清晰易读的摘要。这款工具能快速提取核心要点，提高阅读效率和信息处理能力。面对信息过载或需要快速理解大量文本时，Brevity能提供简洁明了的内容概括，有助于提升工作效率和优化数字化沟通。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com