#长上下文

Chinese-LLaMA-Alpaca-2学习资源汇总 - 基于Llama-2的开源中文大语言模型

1 个月前

本文汇总了Chinese-LLaMA-Alpaca-2项目的相关学习资源,包括模型下载、使用教程、源代码等,帮助读者快速了解和使用这个基于Llama-2的开源中文大语言模型。

Chinese-LLaMA-Alpaca-2 大模型中文词表 FlashAttention-2 长上下文 Github 开源项目

1 个月前

ChunkLlama: 突破大语言模型长上下文限制的无训练方法

2 个月前

ChunkLlama提出了一种名为双重块注意力(Dual Chunk Attention, DCA)的创新技术,无需额外训练即可将大语言模型的上下文窗口扩展至原始预训练长度的8倍以上,为解决长文本理解难题提供了全新思路。

ChunkLlama 大语言模型长上下文注意力机制无需训练 Github 开源项目

2 个月前

CodeQwen1.5: 阿里云推出的革命性代码生成AI模型

2 个月前

CodeQwen1.5是阿里云推出的代码专用大语言模型,具有强大的代码生成能力和竞争性的性能表现。本文将深入介绍CodeQwen1.5的特点、技术细节以及应用场景,探讨其在人工智能辅助编程领域的重要意义。

CodeQwen1.5 代码生成长上下文编程语言模型部署 Github 开源项目

2 个月前

InternLM: 开源大语言模型的新标杆

2 个月前

InternLM是由上海人工智能实验室开发的一系列开源大语言模型,包括基础模型和对话模型,具有出色的推理能力、长文本处理能力和工具使用能力,为AI研究和应用提供了强大支持。

InternLM2.5 人工智能长上下文搜集信息增强学习 Github 开源项目

2 个月前

InternLM学习资料汇总 - 先进的大规模语言模型项目

1 个月前

InternLM是由上海人工智能实验室开发的一系列先进的大规模语言模型。本文汇总了InternLM项目的各种学习资源,帮助读者快速了解和使用这一强大的AI模型。

InternLM2.5 人工智能长上下文搜集信息增强学习 Github 开源项目

1 个月前

Gemma 2B - 突破10M上下文长度的开创性模型

2 个月前

探索Gemma 2B模型如何通过创新的Infini-attention技术实现10M上下文长度,在保持低内存占用的同时大幅提升语言模型的能力边界。

Gemma 2B 长上下文局部注意力内存优化推理优化 Github 开源项目

2 个月前

Chinese-LLaMA-Alpaca-2: 新一代开源中文大语言模型

2 个月前

本文介绍了基于Llama-2的中文大语言模型Chinese-LLaMA-Alpaca-2项目,包括其主要特点、模型系列、下载方式等内容,为读者提供了全面的项目概览。

Chinese-LLaMA-Alpaca-2 大模型中文词表 FlashAttention-2 长上下文 Github 开源项目

2 个月前

相关项目

InternLM

Chinese-LLaMA-Alpaca-2

Chinese-LLaMA-Alpaca-2项目基于Meta的Llama-2模型开发，提供了全新的中文LLaMA-2基座模型和Alpaca-2指令精调大模型，专注于优化中文词表和扩展模型训练。模型支持大规模中文数据增量训练，显著提升中文语义和指令理解能力。支持4K至64K上下文长度，实现人类偏好对齐，提供多种工具支持部署和应用推广。适用于企业和研究机构进行语言模型深度研发和实用应用，如对话系统和文本分析等。

gemma-2B-10M

gemma-2B-10M项目采用递归局部注意力机制，在32GB内存限制下实现了处理1000万token上下文的能力。该项目为Gemma 2B模型提供CUDA优化的推理功能，显著提升了处理效率。项目设计简洁易用，便于开发者快速应用。虽然目前处于早期阶段，但在长文本处理领域展现出巨大潜力，有望推动相关技术的进步。

ChunkLlama

ChunkLlama项目开发了双重块注意力(DCA)技术，无需额外训练即可将大语言模型的上下文窗口扩展至原始长度的8倍以上。DCA可与主流外推技术和高效推理库兼容，支持Llama、Mistral等多种模型。实验表明，应用DCA后的Llama-2/3 70B模型能处理长达100k的上下文，并在长文本任务中表现出色。

CodeQwen1.5

CodeQwen1.5是一款专用于代码生成的大型语言模型,支持92种编程语言,具备64K tokens的长文本处理能力。该模型在代码生成、文本到SQL转换和bug修复等任务中表现优异,为开发者提供了高效的AI编码辅助工具。作为Qwen1.5的专用代码版本,CodeQwen1.5采用transformer架构,在多项基准测试中展现出卓越性能。

360zhinao

360Zhinao是一系列开源大语言模型,包括基础模型和聊天模型。该项目利用3.4万亿高质量语料训练,在多项基准测试中表现优异。其聊天模型支持4K、32K和360K三种上下文长度,其中360K(约50万中文字符)为开源中文模型最长。此外,360Zhinao还发布了搜索和重排模型,在C-MTEB排行榜上表现出色。该项目持续更新,不断推进大语言模型技术发展。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com