#语言模型

Flacuna：融合Flan的Vicuna模型，提升问题解决能力的新突破

3 个月前

Flacuna Vicuna 问题解决能力微调语言模型 Github 开源项目

3 个月前

OpenELM: 苹果公司的开源高效语言模型家族

3 个月前

OpenELM 语言模型进化算法开源库 AI生成 Github 开源项目

3 个月前

BakLLaVA: 多模态视觉语言模型的创新与突破

3 个月前

BakLLaVA 多模态语言模型视觉指令微调 AI训练 Github 开源项目

3 个月前

Zero-Shot Tokenizer Transfer: 革新自然语言处理的新方法

3 个月前

Zero-Shot Tokenizer Transfer 语言模型分词器超网络模型迁移 Github 开源项目

3 个月前

ML论文解析:从Transformer到最新的语言模型

3 个月前

语言模型自然语言处理深度学习 Transformer GPT Github 开源项目

3 个月前

Orch: 量子意识理论与人工智能融合的新篇章

3 个月前

orch Rust 语言模型应用开发结构化数据生成 Github 开源项目

3 个月前

Rho-1: 革命性的选择性语言建模技术

3 个月前

Rho-1 语言模型选择性语言建模数学能力预训练 Github 开源项目

3 个月前

Chinese Tiny LLM: 开创中文大语言模型新纪元

3 个月前

Chinese-Tiny-LLM 语言模型预训练中文语料库自然语言处理 Github 开源项目

3 个月前

Sophia优化器：为大型语言模型预训练而生的可扩展随机二阶优化器

3 个月前

Sophia 优化器机器学习语言模型预训练 Github 开源项目

3 个月前

GenAI Quick Start PoCs: 加速生成式AI应用开发的开源项目

3 个月前

Amazon Bedrock 生成式AI RAG 模型评估语言模型 Github 开源项目

3 个月前

相关项目

POLAR-14B-v0.2

POLAR-14B-v0.2由Plateer AI实验室开发，受启于SOLAR，致力于韩文语言模型的持续发展与贡献。

scibert_scivocab_cased

SciBERT是一款用于科学文本的预训练语言模型，基于Semantic Scholar的114万篇论文和31亿个标记进行训练。其专有的scivocab词汇表利于更好地匹配训练语料，支持cased和uncased模型版本，适合科学文献分析。

distilbert-base-uncased-go-emotions-student

该模型运用未标注GoEmotions数据集，利用零样本学习技术进行精炼。尽管其性能可能略逊于完全监督下的模型，但它展示了如何将复杂的自然语言推理模型简化为高效的模型，以便在未标注数据上进行分类器训练。

OLMo-1B-hf

OLMo是一个由Allen Institute for AI开发的开源语言模型，支持Hugging Face Transformers格式和Dolma数据集，具有自回归Transformer架构，适合多种语言处理任务，涵盖完整训练代码和检查点。

deepseek-llm-7b-chat

DeepSeek LLM 是一种含有7B参数的语言模型，在中英文数据上进行广泛训练，并开源以支持研究。模型经过指令优化，适用于自然语言处理任务，并通过示例展示了互动方式，如聊天功能。该模型支持商业用途，其使用需符合许可协议。

roberta-base-bne

roberta-base-bne是一种基于西班牙国家图书馆560GB文本进行大规模预训练的西班牙语掩码语言模型，适用于问答、文本分类和命名实体识别等。该模型可能存在偏见，建议为具体任务进行微调。如有问题，可联系巴塞罗那超级计算中心的文本挖掘团队。

Qwen1.5-MoE-A2.7B

Qwen1.5-MoE-A2.7B是一种基于Transformer架构和专家混合(MoE)的大规模预训练语言模型，通过重构密集模型来增强性能。它推理速度提高1.74倍，训练资源仅为类似模型的25%。建议在使用中结合SFT或RLHF等后训练技术，以进一步改进文本生成能力。详细信息及源码可在博客和GitHub仓库中查看。

flaubert_small_cased

FlauBERT是基于大型法语语料库进行预训练的无监督语言模型，提供多种尺寸选择。结合FLUE评估平台，增强法语自然语言处理的评估能力。该项目利用CNRS Jean Zay超算机，支持未来的可重复实验，并已集成于Hugging Face的Transformers库中，便于开发者应用。

bloom

BLOOM是一个自回归大规模语言模型，使用工业级计算资源训练，能够以46种语言和13种编程语言生成逼真的文本。该模型不仅胜任特定的任务，同时也能转换文本生成其他未明确训练的任务。BLOOM的设计强调多语言文本生成，对于公共研究提供了重要支持，其在法国的超级计算机上训练，以减少环境影响。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com