#长文本处理

Awesome-LLM-Long-Context-Modeling - 包含有关高效转换器、长度外推、长期内存、检索增强生成 (RAG) 和长上下文建模评估的论文和博客的存储库
大语言模型长文本处理信息检索Transformer优化自然语言处理Github开源项目
本仓库收集了关于高效变换器、长度外推、长期记忆、增强检索生成(RAG)及长文本建模评估的研究论文和博客,提供专业资源用于探索长上下文模型及其挑战,并讨论优化NLP模型的创新方法,适合深度语言模型和复杂文本建模研究人员及开发者。考虑到用户搜索意图的多样性,建议在SEO描述中提及项目对长文本建模从算法到实际应用的全面影响,以及其对未来研究方向的启示。
gpt-bat - 长文本分割与处理工具,优化GPT性能
GPT BATGPT-3.5长文本处理OpenAIAPI2DGithub开源项目
GPT BAT是一款专为GPT设计的优化工具,可以将长文本按行、按长度或按特定字符分隔,并灵活设置接口调用参数,如System提示词、User提示词和Max Tokens。兼容OpenAI和API2D接口,支持文本分段预览和Token消耗估算,处理结果将自动下载,允许重复尝试,显著提升GPT-3.5处理长文本的效率和便捷性。
LLMLingua - 提示词压缩技术助力大语言模型效率提升
LLMLingua提示词压缩大语言模型长文本处理推理加速Github开源项目
LLMLingua系列是一套创新的提示词压缩工具,可将提示词压缩至原长度的5%,同时保持大语言模型性能。通过小型语言模型识别并移除非必要标记,该技术有效解决长文本处理和上下文遗忘等问题,大幅降低API使用成本并提高推理效率。LLMLingua系列包含三个版本,适用于检索增强生成、在线会议和代码处理等多种场景。
recurrent-memory-transformer - 记忆增强型Transformer为Hugging Face模型提升长序列处理能力
Recurrent Memory Transformer长文本处理机器学习模型自然语言处理Hugging FaceGithub开源项目
Recurrent Memory Transformer (RMT)是为Hugging Face模型设计的记忆增强型循环Transformer。通过在输入序列中添加特殊记忆标记,RMT实现了高效的记忆机制,能够处理长达1M及以上的token序列。项目提供RMT实现代码、训练示例和评估工具,在BABILong等长文本基准测试中表现优异,为研究长序列处理提供了有力支持。
MInference - 动态稀疏注意力加速长上下文语言模型
MInference大语言模型动态稀疏注意力长文本处理性能优化Github开源项目
MInference是一项新技术,通过利用长上下文语言模型注意力机制的动态稀疏性来加速预填充过程。该技术离线确定注意力头的稀疏模式,在线近似稀疏索引,并使用优化内核动态计算注意力。在A100 GPU上,MInference实现了预填充速度提升10倍,同时保持模型准确性。它支持LLaMA-3、GLM-4等多种长上下文模型,有效处理百万级别token的上下文。
babilong - BABILong基准测试长文本处理能力 评估大语言模型极限
BABILong长文本处理语言模型评估推理能力数据集Github开源项目
BABILong是一个用于评估自然语言处理模型长文本处理能力的基准测试。它将bAbI数据集的任务句子隐藏在PG19背景文本中,生成长达数百万标记的测试样本。该基准包含20个推理任务,涉及事实链接、归纳、演绎和计数等多个方面。BABILong为评估和改进大语言模型的长文本处理能力提供了有效工具,同时也对现有长文本模型提出了挑战。
chain-of-thought-hub - 大型语言模型复杂推理能力评估基准
复杂推理能力大语言模型Chain-of-ThoughtLLM评估长文本处理Github开源项目
Chain-of-Thought Hub汇集了数学、科学、符号推理等多个领域的挑战性任务,旨在全面评估大型语言模型的复杂推理能力。该项目通过精选数据集和模型,为语言模型发展提供可靠参考。同时,它将链式思考提示工程视为新一代系统调用,为基于大型语言模型的应用生态系统发展奠定基础。
stella - 支持长文本的通用中文文本编码模型
stella模型中文文本编码长文本处理C-MTEB向量嵌入Github开源项目
stella是一个通用中文文本编码模型,提供base和large两个版本,支持1024长度输入。模型采用多样化训练数据和先进方法,包括对比学习、难负例处理和EWC技术。在C-MTEB基准测试中表现优异,特别是长文本编码能力突出。适用于文本分类、聚类和检索等多种自然语言处理任务。
Brevity - 智能长文本摘要工具
AI工具内容总结文本简化长文本处理信息提取
Brevity是一款智能文本摘要工具,可将冗长内容转化为清晰易读的摘要。这款工具能快速提取核心要点,提高阅读效率和信息处理能力。面对信息过载或需要快速理解大量文本时,Brevity能提供简洁明了的内容概括,有助于提升工作效率和优化数字化沟通。
Qwen2.5-7B-Instruct - 高效微调和内存优化的多语言大模型
Huggingface模型大语言模型长文本处理GithubQwen2.5开源项目微调多语言支持
Qwen2.5-7B-Instruct是一款多语言支持的指令微调大语言模型。它具备128K tokens的上下文理解能力,可生成8K tokens长度文本,在代码、数学等领域表现突出。该模型在指令遵循、长文本生成和结构化数据理解方面有显著提升。通过优化技术,模型微调速度提高2.2倍,同时减少62%内存使用,大幅提升了训练效率。
NuExtract-v1.5 - 基于AI的多语言结构化信息提取工具
Huggingface模型信息抽取长文本处理Github开源项目NuExtract多语言支持文本提取
NuExtract-v1.5是一款基于Phi-3.5-mini-instruct模型优化的结构化信息提取工具。该工具支持处理长文档,兼容英、法、西、德、葡、意等多种语言。在多项基准测试中,NuExtract-v1.5的表现超越了同类13B和34B参数的模型。使用时,只需输入文本和JSON模板即可提取所需信息。此外,NuExtract-v1.5还提供了参数量仅为0.5B的轻量级版本,以满足不同应用场景的需求。
Phi-3.5-MoE-instruct - 轻量级高性能多语言开源模型
模型开源项目语言模型Phi-3.5-MoEHuggingface长文本处理推理能力Github多语言
Phi-3.5-MoE-instruct是一款高性能开源多语言模型。采用混合专家架构,仅用6.6B活跃参数即可实现优异性能。支持128K上下文长度,在推理、数学和代码生成等方面表现出色。模型专注高质量推理数据,经过严格微调和安全增强,适用于商业和研究领域。
Qwen2.5-7B - 支持长文本和多语言的先进预训练语言模型
模型代码能力多语言支持开源项目Huggingface长文本处理Github大语言模型Qwen2.5
Qwen2.5-7B是一款拥有76亿参数的大规模预训练语言模型。它支持128K tokens的上下文理解和8K tokens的文本生成,显著增强了知识储备、编码和数学能力。该模型在指令遵循、长文本生成和结构化数据理解方面表现出色,并可处理29种以上语言。Qwen2.5-7B作为基础模型,为进一步的微调和应用开发奠定了坚实基础。
Qwen2.5-7B-Instruct-GPTQ-Int4 - Qwen2.5系列4位量化模型支持长文本处理和多语言功能
Huggingface模型大语言模型长文本处理GithubQwen2.5开源项目多语言支持量化
Qwen2.5-7B-Instruct-GPTQ-Int4是Qwen2.5系列的4位量化指令微调模型,拥有76亿参数。该模型支持131,072个token的上下文长度和8192个token的生成长度,在知识储备、编程和数学能力方面有显著提升。它还改进了指令遵循、长文本生成和结构化数据理解等功能,支持29种以上语言,适用于多种自然语言处理任务。
Qwen2.5-Coder-7B-Instruct - 卓越代码生成能力和128K长文本支持
模型大型语言模型人工智能GithubQwen2.5-Coder长文本处理Huggingface开源项目代码生成
Qwen2.5-Coder-7B-Instruct是基于Qwen2.5开发的代码专用大语言模型。该模型在代码生成、推理和修复方面表现出色,为代码智能体等实际应用奠定了坚实基础。模型支持处理高达128K tokens的长文本,拥有7.61B参数,采用因果语言模型架构。除了增强编码能力,它还在数学和通用任务中保持了优秀表现。开发者可通过简洁的代码示例快速上手使用此模型进行文本生成。
Qwen2.5-7B-Instruct-AWQ - 优化的大规模语言模型,支持长文本处理与多语言生成
指令跟随Qwen2.5多语言支持长文本处理模型Github开源项目QwenHuggingface
Qwen2.5 增强版在知识获取、编程和数学能力上有显著提升,支持最大128K的长文本处理及29种语言,优化用于指令追踪和生成结构化数据,尤其适合聊天机器人应用。
internlm-xcomposer2d5-7b - 7B参数规模实现视觉语言理解和创作的开源多模态模型
长文本处理开源项目模型多模态InternLM-XComposer-2.5网页生成图像理解GithubHuggingface
InternLM-XComposer2.5采用7B参数规模构建,通过24K交错图文上下文训练,支持扩展至96K长文本理解。这个开源多模态模型在视频理解、多图对话、高清图像分析、网页生成和文章创作等场景中展现出强大的理解与创作能力。其优秀的长文本处理特性使其能够处理需要大量上下文的复杂任务。
Qwen2-72B-Instruct-GPTQ-Int4 - 提升多语言处理能力,支持超长文本输入
生成能力语言模型Github多语言功能开源项目长文本处理Qwen2-72B-Instruct-GPTQ-Int4Huggingface模型
Qwen2-72B-Instruct-GPTQ-Int4基于Transformer架构,支持多语言生成和理解,具备长达131,072个标记的处理能力。多专家模型设计增强了在语言生成、代码编写及数学推理方面的表现。提供详细的模型部署指导,利用YARN技术提升长文本处理性能。量化模型基准测试和速度对比数据可协助开发者优化深度学习应用。更多信息和更新请参阅相关博客及文档。
Qwen2.5-72B-Instruct-GPTQ-Int4 - Qwen2.5-72B模型4位量化版支持128K长文本及多语言处理
Qwen2.5Github长文本处理Huggingface量化多语言支持开源项目模型大语言模型
Qwen2.5-72B指令微调模型通过GPTQ技术实现4位量化,降低了模型部署门槛。模型支持中英等29种语言,具有出色的代码开发和数学运算能力,可处理128K tokens长度的输入文本并生成8K tokens的输出。基于RoPE等技术的transformers架构使其在长文本理解、结构化数据处理等任务中表现稳定。
Qwen2.5-72B-Instruct-GPTQ-Int8 - 支持多语种和长文本处理的先进AI模型
指令调优大语言模型HuggingfaceGithub开源项目模型Qwen2.5多语言支持长文本处理
Qwen2.5的最新版通过改进知识、编码和数学能力,支持包括中文在内的29种语言,能够处理长文本并生成超过8K字符的文本。此72B参数的8位量化模型在指令遵循和结构化输出生成上有显著提升,有助于Chatbot角色扮演与多样化提示的实现。
Qwen2-57B-A14B-Instruct - 新一代指令优化语言模型Qwen2的潜力
大语言模型Github开源项目长文本处理模型模型评价Qwen2Huggingface多语言能力
Qwen2-57B-A14B-Instruct是Qwen2系列中采用指令优化的语言模型,包含57亿参数。作为Mixture-of-Experts模型之一,它在多个基准测试中超越了多数开源和私有模型,包括语言理解、生成、多语言处理、编程、数学和推理能力。此模型支持处理长达65,536个tokens,适合解析长文本,依托先进的Transformer架构,并具备多语种适应能力的改进tokenizer。
Qwen2.5-Coder-1.5B-Instruct - 支持超长文本处理的智能代码生成模型
长文本处理Qwen2.5-CoderGithub模型指令微调开源项目代码生成Huggingface大语言模型
基于Qwen2.5架构开发的代码特化大语言模型,通过5.5万亿token训练提升了代码生成、推理和修复能力。模型支持长文本处理,具备代码智能体和数学推理功能,采用transformers架构并集成多项先进技术,为代码开发提供全面的辅助支持
led-base-16384 - 基于Longformer的长文档处理变换器
Huggingface文本摘要Transformer模型开源项目模型问答系统Github自然语言处理长文本处理
led-base-16384是Allenai开发的一款长文档处理模型,基于Longformer架构构建。通过16倍扩展bart-base的位置编码矩阵,该模型能够处理长达16K的文本序列。模型主要应用于长文本摘要生成和问答系统,并提供了完整的微调教程。这一开源项目为长文本处理领域提供了实用的解决方案。
StripedHyena-Nous-7B - 混合架构语言模型的突破性创新
Together ResearchHuggingfaceGithub开源项目模型StripedHyena混合架构长文本处理AI语言模型
StripedHyena-Nous-7B是一款由Together Research开发的创新型混合架构语言模型。该模型结合了多头分组查询注意力和门控卷积技术,实现了恒定内存解码、低延迟和高吞吐量。支持处理长达32k的序列,采用混合精度设计,在短文本和长文本评估中表现出色,能够与同等规模的开源Transformer模型相媲美。这一突破性架构为自然语言处理领域带来了新的可能性。
MistralLite - 适用于长文本处理与问答任务的优化语言模型
开源项目微调模型MistralLite模型问答系统Huggingface长文本处理亚马逊云服务Github
MistralLite作为一种优化的语言模型,基于Mistral-7B,通过适应性转子嵌入和滑窗技术,支持32K tokens的长文本处理。它适用于长文本检索、摘要和问答等应用,尤其适合资源有限的环境。可在单个AWS实例轻松部署,支持HuggingFace TGI和vLLM等框架,适合复杂文本场景的精准解析。