#模型权重

Tree Diffusion: 探索语法树上的扩散模型在程序合成中的应用

2024年09月05日

Tree Diffusion 模型权重 Python依赖评估训练 Github 开源项目

2024年09月05日

自动化解释性:使用人工智能理解人工智能

2024年09月04日

自动解释性神经元行为 GPT-2 数据集模型权重 Github 开源项目

2024年09月04日

TransNormerLLM: 更快更好的线性注意力大语言模型

2024年08月31日

TransNormerLLM 大语言模型线性注意力机制高质量语料库模型权重 Github 开源项目

2024年08月31日

相关项目

TransnormerLLM

TransNormerLLM是一种高效的大规模语言模型，使用线性注意力机制，优于传统的软注意力模型。该模型训练于高质量语料库，包含1.4万亿个词元，支持中文、英语和多语言基准测试，在多领域表现出色。提供385M、1B和7B参数版本，开放给学术研究，商用需申请许可。

automated-interpretability

automated-interpretability项目开发了一套自动化工具，用于生成、模拟和评分语言模型中神经元行为的解释。该项目提供了代码库、神经元激活查看器和GPT-2 XL神经元的公开数据集。这些资源旨在帮助研究人员和开发者深入理解大型语言模型的内部机制。

tree-diffusion

Tree Diffusion 是一个开源的深度学习框架，专注于高效生成语法树。该框架结合了扩散模型和变异策略，能在复杂语法约束下快速生成有效的树结构。项目提供完整代码库、预训练模型和使用指南，支持多种编程语言和自定义语法。Tree Diffusion 在程序合成、代码生成和自然语言处理等领域具有广泛应用前景，为研究人员和开发者提供了强大的工具。

Meta-Llama-3-8B-Instruct-abliterated-v3

Meta-Llama-3-8B-Instruct模型采用正交化技术减少拒绝行为，保留原始知识，适用于控制特定行为。

Infinity-Instruct-7M-Gen-Llama3_1-8B

Infinity-Instruct-7M-Gen-Llama3.1-8B是一个开源指令调优模型，无需人类反馈即可达到较高性能。依托于百万级数据集的训练，该模型展现出优于GPT-4在AlpacaEval 2.0测试中的表现。项目持续更新，提供多样模型权重和数据集资源，支持学术研究。采用FlagScale技术，显著降低训练成本。

OpenSora-STDiT-v3

Open-Sora STDiT-v3是一个开源的视频生成模型，专注于短视频创作和编辑。该项目由Open-Sora团队开发，在GitHub上开源，并提供在线演示和图库展示。STDiT-v3模型可通过pip安装和Python代码调用，为视频创作者和开发者提供了便捷的使用方式。这一工具旨在促进视频内容的创新与发展，为用户提供灵活高效的视频处理能力。

nsfw-xl

nsfw-xl是一个基于Stable Diffusion XL的LoRA模型，用于生成成人内容图像。这个模型可以创建逼真的人物图像，适用于创作各种成人场景。它支持多种图像风格，如模拟胶片、复古效果和高细节渲染，为创作者提供了多样化的创作选择。

open_llama_3b_v2

OpenLLaMA是一个复现Meta AI的LLaMA大型语言模型的开源项目。它提供3B、7B和13B三种规模的模型，使用开源数据集训练了1万亿个标记。该项目采用与原始LLaMA相同的预处理和训练参数，在多项评估中表现出色。OpenLLaMA提供PyTorch和JAX格式的预训练权重，遵循Apache 2.0许可证发布。

JaColBERTv2.5

该模型使用全新的训练方法，基于40%的数据成功创建了高效的日语信息检索系统。在多个数据集上表现优异，特别是改进的多向量检索方法，在资源受限的情况下提供卓越性能，优于包括BGE-M3在内的多语言模型，适合资源有限的应用场景。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com