#模型权重

TransnormerLLM - 使用线性注意力机制的大规模语言模型
Github开源项目大语言模型TransNormerLLM线性注意力机制高质量语料库模型权重
TransNormerLLM是一种高效的大规模语言模型,使用线性注意力机制,优于传统的软注意力模型。该模型训练于高质量语料库,包含1.4万亿个词元,支持中文、英语和多语言基准测试,在多领域表现出色。提供385M、1B和7B参数版本,开放给学术研究,商用需申请许可。
automated-interpretability - 语言模型神经元行为的自动化解释工具
Github开源项目数据集GPT-2模型权重自动解释性神经元行为
automated-interpretability项目开发了一套自动化工具,用于生成、模拟和评分语言模型中神经元行为的解释。该项目提供了代码库、神经元激活查看器和GPT-2 XL神经元的公开数据集。这些资源旨在帮助研究人员和开发者深入理解大型语言模型的内部机制。
tree-diffusion - 基于扩散模型的语法树生成框架
Github开源项目训练评估模型权重Python依赖Tree Diffusion
Tree Diffusion 是一个开源的深度学习框架,专注于高效生成语法树。该框架结合了扩散模型和变异策略,能在复杂语法约束下快速生成有效的树结构。项目提供完整代码库、预训练模型和使用指南,支持多种编程语言和自定义语法。Tree Diffusion 在程序合成、代码生成和自然语言处理等领域具有广泛应用前景,为研究人员和开发者提供了强大的工具。
Meta-Llama-3-8B-Instruct-abliterated-v3 - 使用正交化提升语言模型对请求的接受度
Github开源项目模型Huggingface模型权重Llama-3-8B-Instruct正交化不拒绝特征消融
Meta-Llama-3-8B-Instruct模型采用正交化技术减少拒绝行为,保留原始知识,适用于控制特定行为。
Infinity-Instruct-7M-Gen-Llama3_1-8B - 开源指令调优模型,支持大规模无监督学习
Github开源项目模型Huggingface指令微调模型权重无监督学习Infinity Instruct代码开源
Infinity-Instruct-7M-Gen-Llama3.1-8B是一个开源指令调优模型,无需人类反馈即可达到较高性能。依托于百万级数据集的训练,该模型展现出优于GPT-4在AlpacaEval 2.0测试中的表现。项目持续更新,提供多样模型权重和数据集资源,支持学术研究。采用FlagScale技术,显著降低训练成本。
open_llama_3b_v2 - 高性能开源大型语言模型复现LLaMA
Github开源项目大语言模型模型性能评估Huggingface模型权重OpenLLaMA开源复现
OpenLLaMA是一个复现Meta AI的LLaMA大型语言模型的开源项目。它提供3B、7B和13B三种规模的模型,使用开源数据集训练了1万亿个标记。该项目采用与原始LLaMA相同的预处理和训练参数,在多项评估中表现出色。OpenLLaMA提供PyTorch和JAX格式的预训练权重,遵循Apache 2.0许可证发布。
JaColBERTv2.5 - 优化资源应用的日语信息检索模型
Github开源项目模型数据集Huggingface多语言模型模型权重日本语检索器JaColBERTv2.5
该模型使用全新的训练方法,基于40%的数据成功创建了高效的日语信息检索系统。在多个数据集上表现优异,特别是改进的多向量检索方法,在资源受限的情况下提供卓越性能,优于包括BGE-M3在内的多语言模型,适合资源有限的应用场景。
Phi-3.5-mini-instruct-GGUF - 高性能微软小型语言模型的量化方案
Github开源项目模型量化HuggingfaceGGUF模型权重Phi-3.5-mini-instructARM芯片
该项目基于llama.cpp框架,对Microsoft Phi-3.5-mini-instruct模型进行GGUF格式量化,提供从Q2到Q8等多个精度版本。每个量化版本都针对不同硬件平台进行了优化,包括针对ARM芯片的特殊优化版本。项目提供完整的模型特性对比和选择指南,帮助开发者根据实际需求选择合适的量化版本。