#长上下文

InternLM - 支持1M上下文的聊天模型

InternLM2.5人工智能长上下文搜集信息增强学习Github开源项目

InternLM2.5系列采用最新技术，专注于AI研究和商业应用的长文本处理和逻辑推理，提供1M文本窗口处理能力和优化的指令遵循与用户互动体验。适合广泛的应用场景。

Chinese-LLaMA-Alpaca-2 - 基于Meta发布的可商用大模型Llama-2开的中文LLaMA&Alpaca大模型的第二期项目

Chinese-LLaMA-Alpaca-2大模型中文词表FlashAttention-2长上下文Github开源项目

Chinese-LLaMA-Alpaca-2项目基于Meta的Llama-2模型开发，提供了全新的中文LLaMA-2基座模型和Alpaca-2指令精调大模型，专注于优化中文词表和扩展模型训练。模型支持大规模中文数据增量训练，显著提升中文语义和指令理解能力。支持4K至64K上下文长度，实现人类偏好对齐，提供多种工具支持部署和应用推广。适用于企业和研究机构进行语言模型深度研发和实用应用，如对话系统和文本分析等。

gemma-2B-10M - Gemma 2B模型实现1000万token上下文处理仅需32GB内存

Gemma 2B长上下文局部注意力内存优化推理优化Github开源项目

gemma-2B-10M项目采用递归局部注意力机制，在32GB内存限制下实现了处理1000万token上下文的能力。该项目为Gemma 2B模型提供CUDA优化的推理功能，显著提升了处理效率。项目设计简洁易用，便于开发者快速应用。虽然目前处于早期阶段，但在长文本处理领域展现出巨大潜力，有望推动相关技术的进步。

ChunkLlama - 双重块注意力技术实现大语言模型上下文窗口扩展

ChunkLlama大语言模型长上下文注意力机制无需训练Github开源项目

ChunkLlama项目开发了双重块注意力(DCA)技术，无需额外训练即可将大语言模型的上下文窗口扩展至原始长度的8倍以上。DCA可与主流外推技术和高效推理库兼容，支持Llama、Mistral等多种模型。实验表明，应用DCA后的Llama-2/3 70B模型能处理长达100k的上下文，并在长文本任务中表现出色。

CodeQwen1.5 - 多语言支持的高性能代码生成模型

CodeQwen1.5代码生成长上下文编程语言模型部署Github开源项目

CodeQwen1.5是一款专用于代码生成的大型语言模型,支持92种编程语言,具备64K tokens的长文本处理能力。该模型在代码生成、文本到SQL转换和bug修复等任务中表现优异,为开发者提供了高效的AI编码辅助工具。作为Qwen1.5的专用代码版本,CodeQwen1.5采用transformer架构,在多项基准测试中展现出卓越性能。

360zhinao - 支持超长上下文的开源大语言模型

360智脑大语言模型开源模型长上下文自然语言处理Github开源项目

360Zhinao是一系列开源大语言模型,包括基础模型和聊天模型。该项目利用3.4万亿高质量语料训练,在多项基准测试中表现优异。其聊天模型支持4K、32K和360K三种上下文长度,其中360K(约50万中文字符)为开源中文模型最长。此外,360Zhinao还发布了搜索和重排模型,在C-MTEB排行榜上表现出色。该项目持续更新,不断推进大语言模型技术发展。

LongCite-llama3.1-8b - LongCite-llama3.1-8b在长上下文问答中实现高效引用生成

长上下文开源项目模型GithubHuggingface细粒度引用Meta-Llama-3.1-8BLongCite-llama3.1-8b文本生成

LongCite-llama3.1-8b是基于Meta-Llama-3.1-8B训练的开源模型，专为长上下文问答中的引用生成而设计，支持128K标记的上下文窗口。项目采用transformers库，提供了Python示例代码用于展示模型部署与应用，并建议使用torch的bfloat16数据类型及自动设备映射功能。vllm项目的示例代码可供进一步探索高效部署模型。

jina-colbert-v1-en - JinaBERT基础的长文档检索用ColBERT模型

Jina-ColBERT模型Github开源项目检索性能长上下文Huggingface对比结果MSMARCO

Jina-ColBERT是一个基于JinaBERT的ColBERT模型，它能处理8k的上下文长度，实现快速准确的检索。与ColBERTv2相比，使用了jina-bert-v2-base-en为主干，并在MSMARCO数据集上训练，表现优于部分基准模型，尤其在长上下文环境中表现更佳，适用于长文档检索场景。

Phi-3.5-mini-instruct-bnb-4bit - 轻量级多语言模型支持高效微调和长文本理解

微调模型Phi-3.5长上下文开源项目HuggingfacetransformersGithub多语言

Phi-3.5-mini-instruct是一款轻量级开源语言模型,支持128K上下文长度。经过监督微调和优化,该模型在多语言能力和长文本理解方面表现出色。适用于内存受限环境、低延迟场景和推理任务,可作为AI系统的基础组件。在商业和研究领域都有广泛应用前景。

Llama-3-8B-Instruct-Gradient-1048k - 优化Llama-3上下文长度以提升AI应用性能

RoPE theta自定义AI模型Llama-3渐进训练长上下文HuggingfaceGithub开源项目模型

Llama-3模型经过Gradient的优化，具备长上下文处理能力，改善了对话功能。项目采用NTK感知插值技术优化RoPE theta，极大提高了训练速度和效率。模型在Q&A任务中表现优异，仅次于GPT-4和Yi，适用于多种业务中的自主助手。

Phi-3.5-mini-instruct - Unsloth加速技术让开源语言模型训练更高效

微调长上下文开源项目模型GithubHuggingfacePhi-3.5多语言Unsloth

Phi-3.5-mini-instruct是微软AI团队开发的开源语言模型,具备多语言理解、长文本处理和代码生成能力,支持128K上下文长度。结合Unsloth优化技术,模型训练速度提升2倍,内存占用降低50%。适合在资源受限环境下部署的AI应用开发,并提供Google Colab环境供快速测试验证。

CodeQwen1.5-7B-Chat-GGUF - 支持92种编程语言的强大代码生成模型

CodeQwen1.5长上下文开源项目代码生成模型Github多语言支持Huggingface语言模型

CodeQwen1.5是一个基于transformer的语言模型，专注于代码生成。它支持92种编程语言，并能处理长达64K标记的上下文，适用于文本到SQL转换和错误修正。

Yarn-Mistral-7b-128k - 基于Mistral-7B的128K长文本语言模型

长上下文大语言模型神经网络人工智能模型Yarn-MistralGithubHuggingface开源项目

这是一个基于Mistral-7B-v0.1的模型扩展，采用YaRN方法完成1500步长文本预训练，将上下文窗口扩展至128K tokens。模型在长短文本处理方面保持稳定表现，通过ARC-c、Hellaswag、MMLU和Truthful QA等基准测试验证，适用于长文本处理场景。

Llama-3-8B-Instruct-262k - 增强长距离上下文处理，支持自主助手功能

生成式模型Github定量模型开源项目长上下文自监督学习HuggingfaceLlama-3模型

Llama-3 8B-Instruct-262k通过优化RoPE theta，将上下文处理长度从8k扩展至超160k。由Gradient开发并借助Crusoe Energy的算力资源，展示了该模型在低训练条件下的长上下文处理能力，同时通过微调增强了其聊天功能。采用NTK-aware插值及数据驱动的RoPE theta优化，结合渐进式训练策略，在高性能集群中实现了多达262144 tokens的上下文扩展训练，并提供了多种量化版本以适应不同应用场景。

LLaMA-2-7B-32K - 基于Llama-2开发的32K长文本理解模型

Github模型开源项目语言模型深度学习长上下文HuggingfaceAI训练LLaMA-2

LLaMA-2-7B-32K是一个基于Llama-2开发的长文本语言模型，通过位置插值技术实现32K上下文长度。该模型采用预训练和指令微调策略，适用于多文档问答和长文本摘要等场景，支持API调用和本地部署。

internlm2-7b - 增强自然语言处理与长文本分析能力

长上下文开源项目模型Github开源HuggingfaceInternLM性能评测

InternLM2-7B是一款开源自然语言处理模型，以其卓越的语言能力及对20万字符长文本的支持在评测中表现优异。适用于领域适配与复杂任务，提供代码开放与商用使用许可，便于研究与开发者的灵活使用与集成。

相关文章

Article Cover

InternLM: 开源大语言模型的新标杆

Article Cover

Chinese-LLaMA-Alpaca-2: 新一代开源中文大语言模型

Article Cover

CodeQwen1.5: 阿里云推出的革命性代码生成AI模型

Article Cover

Gemma 2B - 突破10M上下文长度的开创性模型

Article Cover

ChunkLlama: 突破大语言模型长上下文限制的无训练方法

Article Cover

InternLM学习资料汇总 - 先进的大规模语言模型项目

Article Cover

Chinese-LLaMA-Alpaca-2学习资源汇总 - 基于Llama-2的开源中文大语言模型

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com

@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号