#语言模型
dolly-v2-7b - 基于Pythia的开源指令微调语言模型
transformer开源项目模型Github机器学习Huggingfacedolly-v2-7b指令微调语言模型
dolly-v2-7b是基于Pythia-6.9b架构的指令微调语言模型,通过15000条高质量指令数据训练而成。模型支持问答、分类、生成等核心功能,并采用MIT许可证开放商用。作为开源项目,其突出特点是具备可靠的指令理解能力,为AI应用开发提供了实用的基础模型选择。
PowerLM-3b - 基于Power学习率调度器训练的高性能3B参数小型语言模型
开源项目PowerLM-3b模型GithubHuggingface代码示例文本生成模型评估语言模型
PowerLM-3b是一个基于Power学习率调度器训练的3B参数语言模型。它在开源和专有数据集上训练,在自然语言多选题、代码生成和数学推理等基准测试中表现优异。该模型在同规模模型中展现出较高性能,适用于需要高效小型语言模型的场景。用户可通过Hugging Face transformers库轻松部署和使用PowerLM-3b。
mt5-xl - 多语言文本转换模型,支持101种语言
mT5HuggingfaceNLPGithub开源项目模型预训练多语言语言模型
mT5是一个由谷歌开发的多语言文本转换模型,通过在mC4数据集上进行预训练,涵盖101种语言。尽管未经过监督训练,mT5在多语言基准测试中表现出色。所有代码和模型检查点已公开,方便研究人员和开发者进行定制和微调,提升特定自然语言处理任务的适配性。这一模型显示了使用统一文本格式处理语言任务的最新进展。
kobart-base-v2 - 基于BART的韩文特征提取模型
KoBARTHuggingface编码器解码器Github开源项目模型韩语特征提取语言模型
该项目利用BART模型的Text Infilling技术进行训练,生成了一种高效的韩文特征提取模型。KoBART-base利用超过40GB的多样化韩文数据进行训练,适用于特征提取任务。注意模型可能存在的偏见和局限性,避免在不当环境中使用。项目包含GitHub仓库和模型演示空间,便于用户深入了解和使用。
blip2-flan-t5-xxl - 整合CLIP和Flan T5的多模态模型实现图像理解与语言生成
图像处理HuggingfaceGithub开源项目视觉问答BLIP-2图像标注模型语言模型
BLIP2-FLAN-T5-XXL是一个集成CLIP图像编码器、查询转换器和Flan T5-xxl语言模型的多模态系统。通过查询转换架构连接图像特征和语言理解,实现图像描述生成、视觉问答和基于图像的对话功能。模型支持CPU/GPU部署,提供float16、int8等多种精度配置选项。目前主要应用于图像理解和自然语言生成的研究领域。
MixTAO-7Bx2-MoE-v8.1 - 深入了解MixTAO-7Bx2-MoE-v8.1的性能与技术更新
MixTAO-7Bx2-MoEHuggingface文本生成开源项目AI2 Reasoning Challenge模型Github语言模型HellaSwag
MixTAO-7Bx2-MoE-v8.1是一种新兴的Mixture of Experts (MoE)模型,在AI2 Reasoning Challenge和HellaSwag等数据集上表现出色。它在多项选择复杂任务中达到了89.22%的准确率,显示出强大的推理能力。随着持续更新,该模型在大语言模型领域具有重要的应用前景。
opus-mt-da-de - 基于Transformer架构的丹麦语-德语机器翻译模型
Huggingface开源项目模型Github机器翻译语言模型数据集模型评估opus-mt-da-de
opus-mt-da-de是一个开源的丹麦语到德语机器翻译模型,基于Transformer架构设计。该模型使用OPUS数据集训练,经过规范化和SentencePiece预处理。在Tatoeba测试集上,模型取得57.4的BLEU分数和0.740的chr-F分数,显示出良好的翻译效果。模型提供预训练权重下载,并附有测试集翻译结果供评估参考。
Jamba-tiny-dev - 轻量级机器学习模型助力Jamba架构开发调试
机器学习模型调试实验开发HuggingfaceJambaGithub开源项目模型语言模型
Jamba-tiny-dev作为一款小型机器学习模型,专注于Jamba架构的开发测试场景。模型仅包含319M参数并完成40B tokens训练,具备快速部署和可靠输出的特点,主要应用于单元测试等开发环境。需要注意的是,该模型并未经过充分训练,不适合用于生成高质量文本内容。
magnum-v2-12b-gguf - 基于Claude 3优化的量化多语言聊天模型
GPU训练微调HuggingfaceMagnum开源项目模型Github语言模型ChatML
基于Mistral-Nemo-Base-2407开发的GGUF量化语言模型,通过复制Claude 3系列的文本生成能力,实现多语言对话功能。模型采用ChatML格式训练,整合多个数据集,经由8块H100 GPU完成双轮训练,具备自然流畅的语言交互表现。
LLM2Vec-Meta-Llama-3-8B-Instruct-mntp - 基于大语言模型的文本编码器实现语义检索与文本嵌入
语义相似度机器学习Huggingface开源项目LLM2Vec模型Github语言模型文本编码
LLM2Vec项目将解码器型大语言模型转换为文本编码器。项目采用双向注意力机制、掩码token预测和无监督对比学习方法,用于文本嵌入和语义相似度计算。通过Python接口实现文本理解和检索功能,支持自定义指令查询,可进行模型微调以提升性能。
LaMini-T5-738M - 高效精简的738M参数T5语言模型
Huggingface人工智能开源项目模型Github语言模型自然语言处理LaMini-T5-738M指令微调
LaMini-T5-738M是一个经过258万条指令数据集训练的T5语言模型,总参数量为738M。作为LaMini-LM系列成员之一,该模型针对自然语言指令处理进行了优化,在NLP任务评测中表现良好。模型支持通过HuggingFace pipeline快速部署使用。
alephbert-base - 优化希伯来语自然语言处理的先进语言模型
语言模型Github开源项目AlephBERTBERT架构希伯来语Huggingface训练数据模型
AlephBERT是一个基于Google BERT架构的希伯来语语言模型。这一模型利用了来自OSCAR、Wikipedia以及Twitter的丰富语料,提升了自然语言处理的表现。训练过程中使用了Masked Language Model损失优化策略,提高了效率和准确性。通过Huggingface的Transformer库,用户能够轻松集成这一模型,满足多种自然语言处理需求。
DARE_TIES_13B - 通过合并多种预训练语言模型提升AI性能
配置文件大模型算法合并HuggingfaceGithub开源项目模型DARE_TIES_13B语言模型
项目通过DARE TIES方法合并预训练语言模型,使用yunconglong的Truthful DPO TomGrc FusionNet 7Bx2 MoE 13B作为基础,结合了13B DPO及13B MATH DPO模型。通过密度和权重配置,采用bfloat16和int8掩码,在计算效率和文本覆盖上均有显著提升。
falcon-mamba-7b - 适用于多任务的高效文本生成模型
Huggingface文本生成开源项目模型Github语言模型训练数据Mamba架构falcon-mamba-7b
Falcon-Mamba-7B是一款高性能的文本生成模型,采用Mamba架构,专为生成和理解自然语言而设计。其在IFEval和BBH等多项任务评估中表现优秀,能处理从一般理解到复杂数学问题的广泛任务。通过先进的训练方法和高质量的数据集,实现了对长距离依赖的有效处理,是自然语言处理的高效工具。
Yi-6B-200K - 提供中英文双语支持的开源大语言模型
技术报告Huggingface开源项目双语模型GithubYi语言模型开源
致力于构建开源大语言模型,具备出色的语言理解、常识推理和阅读理解能力。Yi系列通过多语言语料库训练,在许多基准测试中表现优异。采用Llama架构,由Yi团队独立开发数据集与基础设施,适合个人、学术和商业使用。
Llama-3.2-3B-Instruct-4bit - MLX框架专用的Llama 3.2指令模型4位精度优化版
开源许可机器学习Huggingface开源项目模型MLX框架Github语言模型Llama 3.2
这是基于Meta原版Llama-3.2-3B-Instruct转换的MLX框架专用模型,采用4位精度量化以提升效率。模型支持英语、德语、法语等多种语言处理能力,通过mlx-lm库即可实现模型加载和文本生成。该模型遵循Llama 3.2社区许可协议,保持了原版模型的核心功能。
Mistral-7B-SlimOrca - SlimOrca实现高效性能的Mistral-7B文本生成模型
数据集开源项目GPT-4Github性能评估Huggingface模型Mistral-7B-SlimOrca语言模型
Mistral-7B-SlimOrca是一款基于Mistral-7B模型,并经过SlimOrca数据集微调的神经网络模型。通过仅~50万条GPT-4补全数据,该模型在HuggingFace评估中表现优异,接近Llama2-70b-chat,且大幅减少数据量和计算需求。模型使用OpenChat打包并由Axolotl训练,借助GPT-4对数据集的精确筛选,提供高效文本生成能力,探索未来模型训练的新方法。
cerbero-7b - 意大利AI革命的开创性语言模型
意大利开源HuggingfaceAI解决方案Github开源项目模型cerbero-7b语言模型
cerbero-7b是首个完全免费且开源的意大利大型语言模型,其性能可与ChatGPT 3.5媲美,适合用于研究及商业应用。基于mistral-7b, cerbero-7b在意大利AI领域填补了空白,并推进了多行业的创新及技术与大众的结合。模型采用Apache 2.0许可,支持不受限制的使用,适合意大利语言AI应用的多种需求。
InRanker-base - 增强跨领域场景信息检索的AI解决方案
InRanker信息检索无监督学习模型蒸馏HuggingfaceGithub开源项目模型语言模型
InRanker通过语言模型和重排序技术,在无需额外查询或人工标注的情况下提升跨领域信息检索能力。其双重蒸馏训练策略有效生成训练数据,从而优化了模型性能,并保持易用特性。
Orca-2-13b - 微软开源专注推理能力提升的研究型语言模型
语言模型人工智能模型Github推理能力开源项目Orca 2微软研究Huggingface
Orca 2是微软研究院基于LLAMA-2开发的研究型语言模型,通过合成数据集训练,旨在增强小型语言模型的推理能力。该模型在推理、阅读理解、数学问题解决和文本摘要等任务中表现优异,采用单轮响应模式。Orca 2为研究社区提供了评估和改进小型语言模型的基础,目前开放了13B参数版本及完整权重,供研究使用。
ruBert-base - 专为俄语遮蔽填充任务优化的Transformer预训练语言模型
语言模型ruBertPyTorchTransformers模型Github开源项目自然语言处理Huggingface
ruBert-base是一个专为俄语遮蔽填充任务优化的预训练语言模型。该模型基于Transformer架构,由SberDevices团队开发,采用BPE分词器,词典大小12万token,模型参数量1.78亿。模型使用30GB训练数据,是俄语自然语言处理领域的重要研究成果。ruBert-base遵循Apache-2.0许可证,为俄语NLP应用提供了强大的基础支持。
tinyroberta-squad2 - 经过蒸馏优化的快速问答模型,运行速度提升一倍
tinyroberta-squad2开源项目模型Github机器学习Huggingface问答系统语言模型数据提取
tinyroberta-squad2是一个基于SQuAD 2.0数据集训练的轻量级问答模型。通过知识蒸馏技术,模型在保持原有精确匹配率78.86%和F1分数82.04%的同时,将运行速度提升一倍。模型支持Haystack和Transformers框架,可用于构建文本问答系统。
Mixtral-8x22B-v0.1 - 多平台兼容的预训练大规模语言模型
Mixtral-8x22BGithub模型开源项目语言模型Hugging FaceHuggingface生成模型Mistral AI
这是一款多语言兼容的预训练大型语言模型,支持生成性稀疏专家技术,兼容vLLM和Hugging Face transformers库,提供灵活的运行选项和优化内存管理的优势。然而,用户需注意,该模型没有内容审核功能。
LLaMA-2-7B-32K - 基于Llama-2开发的32K长文本理解模型
Github模型开源项目语言模型深度学习长上下文HuggingfaceAI训练LLaMA-2
LLaMA-2-7B-32K是一个基于Llama-2开发的长文本语言模型,通过位置插值技术实现32K上下文长度。该模型采用预训练和指令微调策略,适用于多文档问答和长文本摘要等场景,支持API调用和本地部署。
Yi-Ko-6B - 多语言大规模自动回归模型优化文本生成性能
Github模型开源项目Yi-Ko-6B语言模型Huggingface文本生成自回归模型参数
Yi-Ko-6B项目通过引入韩语和英语语料库,以及扩展词汇,实现对预训练模型的增强。该模型基于Llama-2优化的transformer架构,并拥有6亿参数,专注于文本生成任务。在AI2 Reasoning Challenge、HellaSwag和MMLU等多项基准测试中,模型展现了突出的多语言处理能力。此外,它还能高效执行韩语句子的词分段与生成。
kf-deberta-base - 金融领域专用语言模型展示出色性能
基准测试语言模型性能KF-DeBERTa模型Github开源项目金融Huggingface
KF-DeBERTa基于DeBERTa-v2架构,结合Electra的RTD目标训练,旨在金融和通用领域应用。其在KLUE基准测试上表现突出,超越RoBERTa-Large,并在金融领域任务如情感分析、广告分类和实体识别中展现领先性能,体现出其在财经信息处理中的适用性和精准度。
pythia-6.9b-deduped - 面向大规模语言模型研究的开源模型系列
数据集去重Huggingface语言模型模型训练科学研究Pythia模型Github开源项目
Pythia-6.9b-deduped为可解释性研究提供了一套8种大小的模型,每种大小有去重和未去重版本。该模型在性能上可与同类模型媲美,统一的训练方法推动科学研究,并提供154个中间检查点供研究使用
TinyMistral-248M - 使用小规模数据集进行高效模型预训练
Github微调Mistral 7B模型开源项目语言模型Huggingface评估结果参数
TinyMistral-248M基于Mistral 7B模型,参数减少至约2.48亿,专为下游任务微调设计。预训练使用了748.8万个实例,支持文本生成功能,拥有约32,768个token的上下文长度。模型在InstructMix评估中的平均困惑度为6.3,未来将在多数据集上增加训练周期,验证无需大数据集即可进行有效预训练的可能性,并在多个指标测试中表现良好。
xLAM-8x7b-r - 提升AI代理决策效率与多领域自动化应用
开源项目人工智能助手xLAM工具调用模型语言模型HuggingfaceGithub
项目详细介绍了提升决策支持和执行用户指令的大语言模型系列。这些模型通过自主任务规划与执行,将工具调用与代理机制结合应用于多个领域。xLAM系列模型强调其在自动化工作流程方面的应用,专注于研究和离线功能的增强。提供的量化GGUF文件兼具隐私与效率,通过与Huggingface的整合,项目提供了详细的使用指南,并在多个基准测试如Berkeley Function-Calling、Webshop和ToolQuery中表现出色。
chinese_roberta_L-2_H-128 - 使用多模态预训练优化中文自然语言处理
语言模型RoBERTa预训练模型Github开源项目CLUECorpusSmallHuggingface
该项目包括24种中文RoBERTa模型,使用CLUECorpusSmall数据集进行训练,效果超过较大数据集。模型通过UER-py和TencentPretrain预训练,并支持多模态框架,参数超过十亿。模型可在HuggingFace和UER-py Modelzoo中获取。项目提供详细的训练过程和关键细节,便于结果复现,着重提升中文自然语言处理任务中的性能。
openchat-3.6-8b-20240522 - 基于Llama 3架构的混合数据训练语言模型
机器学习HuggingfaceGithub开源项目模型人工智能开源技术OpenChat 3.6语言模型
OpenChat-3.6-8b-20240522是基于Llama 3架构开发的8B参数规模语言模型。模型采用混合质量数据训练方法,支持8192个上下文长度,可通过OpenChat包或OpenAI兼容API部署。适用场景包括代码开发、对话交互等通用任务,在基准测试中显示出相对同规模模型的性能优势。模型在复杂推理、数学运算等方面存在一定局限,且可能出现信息幻觉现象。
Qwen1.5-1.8B-Chat - 跨语言能力与性能优化的前沿语音模型
HuggingfaceQwen1.5开源项目代码生成多语言支持模型Github语言模型Transformer结构
Qwen1.5是Qwen2的测试版本,显著提高了聊天模型的人类偏好性能和多语言支持,并能处理32K上下文长度。其基于Transformer架构,采用了SwiGLU激活函数及多种注意力机制,并改进了分词器以增强多语言和代码适应性。通过数据预训练与后期优化,该模型在对话系统中的表现尤为突出。
granite-7b-base - 开源模型Granite-7b-base的结构与应用解析
开源项目Granite-7b-base模型语言模型IBM开源Huggingface大模型Github
Granite-7b-base是IBM推出的开源模型,基于Meta Llama2-7B架构开发,提供4k个上下文tokens,主要适用于英语语境。此模型通过IBM精心挑选的数据进行训练,并提供开放许可用于社区和商业应用。尽管存在一些风险与局限性,其结构和应用案例显示出显著的研究潜力。
dpr-reader-single-nq-base - 基于自然问题数据集的开放域问答工具
Dense Passage Retrieval自然问题数据集问答系统HuggingfaceGithub开源项目模型知识检索语言模型
dpr-reader-single-nq-base是Facebook Research开发的开放域问答模型,训练于自然问题数据集。利用Dense Passage Retrieval框架,该模型能够快速准确地检索并回答大规模文字语料中的问答任务,灵活应用于多种场景。需注意模型可能存在的偏见和局限性。
subnet9_Aug30_c - 深入了解最新Transformers模型的特性与潜在应用
使用指南开源项目模型卡片评价指标模型语言模型HuggingfacetransformersGithub
页面介绍了最新Transformer模型的详细信息,包括使用方法、训练细节及初步评估结果。开发者资料、语言支持、许可信息等细节有待完善。用户可参考代码示例以便快速入门,并了解模型的直接及潜在应用。页面同时提示模型存在的偏见、风险和技术限制,建议使用者在应用时加以考虑。
rugpt3large_based_on_gpt2 - 俄语Transformer模型SberDevices团队的训练与评估
rugpt3large_based_on_gpt2Huggingface预训练模型Github开源项目SberDevices模型Transformer语言模型
SberDevices团队开发的俄语Transformer模型,基于PyTorch进行训练,使用80B个标记在1024序列长度下进行3轮训练,接着进行2048长度的微调。整个过程耗时14天,最终在测试集上的困惑度为13.6,为俄语处理提供了新的可能性。
相关文章