#语言模型

ruBert-base - 专为俄语遮蔽填充任务优化的Transformer预训练语言模型
语言模型ruBertPyTorchTransformers模型Github开源项目自然语言处理Huggingface
ruBert-base是一个专为俄语遮蔽填充任务优化的预训练语言模型。该模型基于Transformer架构,由SberDevices团队开发,采用BPE分词器,词典大小12万token,模型参数量1.78亿。模型使用30GB训练数据,是俄语自然语言处理领域的重要研究成果。ruBert-base遵循Apache-2.0许可证,为俄语NLP应用提供了强大的基础支持。
tinyroberta-squad2 - 经过蒸馏优化的快速问答模型,运行速度提升一倍
tinyroberta-squad2开源项目模型Github机器学习Huggingface问答系统语言模型数据提取
tinyroberta-squad2是一个基于SQuAD 2.0数据集训练的轻量级问答模型。通过知识蒸馏技术,模型在保持原有精确匹配率78.86%和F1分数82.04%的同时,将运行速度提升一倍。模型支持Haystack和Transformers框架,可用于构建文本问答系统。
Mixtral-8x22B-v0.1 - 多平台兼容的预训练大规模语言模型
Mixtral-8x22BGithub模型开源项目语言模型Hugging FaceHuggingface生成模型Mistral AI
这是一款多语言兼容的预训练大型语言模型,支持生成性稀疏专家技术,兼容vLLM和Hugging Face transformers库,提供灵活的运行选项和优化内存管理的优势。然而,用户需注意,该模型没有内容审核功能。
LLaMA-2-7B-32K - 基于Llama-2开发的32K长文本理解模型
Github模型开源项目语言模型深度学习长上下文HuggingfaceAI训练LLaMA-2
LLaMA-2-7B-32K是一个基于Llama-2开发的长文本语言模型,通过位置插值技术实现32K上下文长度。该模型采用预训练和指令微调策略,适用于多文档问答和长文本摘要等场景,支持API调用和本地部署。
Yi-Ko-6B - 多语言大规模自动回归模型优化文本生成性能
Github模型开源项目Yi-Ko-6B语言模型Huggingface文本生成自回归模型参数
Yi-Ko-6B项目通过引入韩语和英语语料库,以及扩展词汇,实现对预训练模型的增强。该模型基于Llama-2优化的transformer架构,并拥有6亿参数,专注于文本生成任务。在AI2 Reasoning Challenge、HellaSwag和MMLU等多项基准测试中,模型展现了突出的多语言处理能力。此外,它还能高效执行韩语句子的词分段与生成。
kf-deberta-base - 金融领域专用语言模型展示出色性能
基准测试语言模型性能KF-DeBERTa模型Github开源项目金融Huggingface
KF-DeBERTa基于DeBERTa-v2架构,结合Electra的RTD目标训练,旨在金融和通用领域应用。其在KLUE基准测试上表现突出,超越RoBERTa-Large,并在金融领域任务如情感分析、广告分类和实体识别中展现领先性能,体现出其在财经信息处理中的适用性和精准度。
pythia-6.9b-deduped - 面向大规模语言模型研究的开源模型系列
数据集去重Huggingface语言模型模型训练科学研究Pythia模型Github开源项目
Pythia-6.9b-deduped为可解释性研究提供了一套8种大小的模型,每种大小有去重和未去重版本。该模型在性能上可与同类模型媲美,统一的训练方法推动科学研究,并提供154个中间检查点供研究使用
TinyMistral-248M - 使用小规模数据集进行高效模型预训练
Github微调Mistral 7B模型开源项目语言模型Huggingface评估结果参数
TinyMistral-248M基于Mistral 7B模型,参数减少至约2.48亿,专为下游任务微调设计。预训练使用了748.8万个实例,支持文本生成功能,拥有约32,768个token的上下文长度。模型在InstructMix评估中的平均困惑度为6.3,未来将在多数据集上增加训练周期,验证无需大数据集即可进行有效预训练的可能性,并在多个指标测试中表现良好。
xLAM-8x7b-r - 提升AI代理决策效率与多领域自动化应用
开源项目人工智能助手xLAM工具调用模型语言模型HuggingfaceGithub
项目详细介绍了提升决策支持和执行用户指令的大语言模型系列。这些模型通过自主任务规划与执行,将工具调用与代理机制结合应用于多个领域。xLAM系列模型强调其在自动化工作流程方面的应用,专注于研究和离线功能的增强。提供的量化GGUF文件兼具隐私与效率,通过与Huggingface的整合,项目提供了详细的使用指南,并在多个基准测试如Berkeley Function-Calling、Webshop和ToolQuery中表现出色。
chinese_roberta_L-2_H-128 - 使用多模态预训练优化中文自然语言处理
语言模型RoBERTa预训练模型Github开源项目CLUECorpusSmallHuggingface
该项目包括24种中文RoBERTa模型,使用CLUECorpusSmall数据集进行训练,效果超过较大数据集。模型通过UER-py和TencentPretrain预训练,并支持多模态框架,参数超过十亿。模型可在HuggingFace和UER-py Modelzoo中获取。项目提供详细的训练过程和关键细节,便于结果复现,着重提升中文自然语言处理任务中的性能。
openchat-3.6-8b-20240522 - 基于Llama 3架构的混合数据训练语言模型
机器学习HuggingfaceGithub开源项目模型人工智能开源技术OpenChat 3.6语言模型
OpenChat-3.6-8b-20240522是基于Llama 3架构开发的8B参数规模语言模型。模型采用混合质量数据训练方法,支持8192个上下文长度,可通过OpenChat包或OpenAI兼容API部署。适用场景包括代码开发、对话交互等通用任务,在基准测试中显示出相对同规模模型的性能优势。模型在复杂推理、数学运算等方面存在一定局限,且可能出现信息幻觉现象。
Qwen1.5-1.8B-Chat - 跨语言能力与性能优化的前沿语音模型
HuggingfaceQwen1.5开源项目代码生成多语言支持模型Github语言模型Transformer结构
Qwen1.5是Qwen2的测试版本,显著提高了聊天模型的人类偏好性能和多语言支持,并能处理32K上下文长度。其基于Transformer架构,采用了SwiGLU激活函数及多种注意力机制,并改进了分词器以增强多语言和代码适应性。通过数据预训练与后期优化,该模型在对话系统中的表现尤为突出。
granite-7b-base - 开源模型Granite-7b-base的结构与应用解析
开源项目Granite-7b-base模型语言模型IBM开源Huggingface大模型Github
Granite-7b-base是IBM推出的开源模型,基于Meta Llama2-7B架构开发,提供4k个上下文tokens,主要适用于英语语境。此模型通过IBM精心挑选的数据进行训练,并提供开放许可用于社区和商业应用。尽管存在一些风险与局限性,其结构和应用案例显示出显著的研究潜力。
dpr-reader-single-nq-base - 基于自然问题数据集的开放域问答工具
Dense Passage Retrieval自然问题数据集问答系统HuggingfaceGithub开源项目模型知识检索语言模型
dpr-reader-single-nq-base是Facebook Research开发的开放域问答模型,训练于自然问题数据集。利用Dense Passage Retrieval框架,该模型能够快速准确地检索并回答大规模文字语料中的问答任务,灵活应用于多种场景。需注意模型可能存在的偏见和局限性。
subnet9_Aug30_c - 深入了解最新Transformers模型的特性与潜在应用
使用指南开源项目模型卡片评价指标模型语言模型HuggingfacetransformersGithub
页面介绍了最新Transformer模型的详细信息,包括使用方法、训练细节及初步评估结果。开发者资料、语言支持、许可信息等细节有待完善。用户可参考代码示例以便快速入门,并了解模型的直接及潜在应用。页面同时提示模型存在的偏见、风险和技术限制,建议使用者在应用时加以考虑。
rugpt3large_based_on_gpt2 - 俄语Transformer模型SberDevices团队的训练与评估
rugpt3large_based_on_gpt2Huggingface预训练模型Github开源项目SberDevices模型Transformer语言模型
SberDevices团队开发的俄语Transformer模型,基于PyTorch进行训练,使用80B个标记在1024序列长度下进行3轮训练,接着进行2048长度的微调。整个过程耗时14天,最终在测试集上的困惑度为13.6,为俄语处理提供了新的可能性。
Llama-2-ko-7b-Chat - Llama-2拓展到韩语文本生成的进展与优化
Github开源项目NLP模型语言模型Huggingface文本生成训练Llama 2
Llama-2-Ko-7b-Chat通过结合Llama-2预训练模型和特定韩语数据集kullm-v2,致力于提升韩语文本生成能力,实现对话支持。Taemin Kim和Juwon Kim基于Naver BoostCamp NLP-08开发并持续更新优化此项目。模型只接受和生成文本,采用先进技术以提高生成质量,为研究新语言处理能力和优化方案的研究者及开发者提供参考。
Llama3.1-70B-Chinese-Chat - 中英双语优化的Llama3.1-70B指令微调模型
开源项目Llama3.1-70B-Chinese-Chat角色扮演模型语言模型Huggingface细致调整文本生成Github
项目基于Meta-Llama-3.1-70B-Instruct模型,优化针对中英用户,支持角色扮演、函数调用和数学能力。模型使用超10万偏好对数据集训练,提供q3_k_m、q4_k_m、q8_0和f16 GGUF版本。使用ORPO算法进行全参数微调,并基于LLaMA-Factory框架。用户需升级transformers库以下载使用BF16模型,亦可使用GGUF模型进行多种方式推理。
dictalm2.0-instruct - 支持对话功能的希伯来语大型语言模型
自然语言生成开源项目模型GithubHuggingface指令微调希伯来语语言模型DictaLM-2.0
通过对DictaLM-2.0模型的指令调优,此项目提升了大型语言模型在希伯来语环境下的指令执行和词汇能力。采用高精度配置和扩展的希伯来语指令数据集,遵循Zephyr-7B-beta的调整方案,专为对话设计,旨在提供流畅的聊天体验。尽管表现出色,但尚未集成内容审核机制,项目期待与社区合作,优化模型在内容监控环境中的应用。
ukr-roberta-base - 乌克兰文HuggingFace模型的语料库预训练
HuggingFace开源项目模型GithubHuggingfaceukr-roberta-baseUkrainian Wikipedia训练数据语言模型
该项目使用乌克兰语言的多种语料库,并结合HuggingFace的Roberta分词器进行了处理。所使用的语料包括乌克兰维基百科、OSCAR数据集及社交网络样本。通过V100硬件加速的方法,预训练出与roberta-base-cased架构类似的模型,拥有12层、768个隐藏单元和125M参数。有关详细的训练配置和技术细节,请参阅原始项目。
maestrale-chat-v0.4-beta - 优化意大利语语言处理的SFT与DPO对齐模型
Github微调模型模型描述意大利语语言模型开源项目Maestrale-chatHuggingface
该模型专注于意大利语处理,基于Mistral-7b模型在大规模高质量语料库上的预训练,并结合了occiglot模型。对170万次对话和指令进行微调后,提升了数学、推理能力和拉丁文翻译能力。适用于多种应用场景,如生成Mermaid思维导图和SQL代码,采用ChatML提示格式。此外,作为Beta版设计,模型具有‘安全性’,能够拒绝有害问题的回答。
Qwen2-1.5B-Ita - Qwen2 1.5B高效意大利语语言模型表现接近大型模型
语言模型Github变形金刚库开源项目模型意大利语模型Huggingface性能评估Qwen2 1.5B
Qwen2 1.5B是一款专为意大利语优化的小型语言模型,拥有1.5亿参数,性能接近于9亿参数的ITALIA模型。该模型在意大利语应用中表现优异,特别是在MMLU基准测试中展示卓越的多任务语言理解能力。尽管在ARC和HELLASWAG基准上稍逊一筹,但其综合表现仍具备效率和能力的良好平衡。
wav2vec2-xlsr-1b-finnish-lm-v2 - 芬兰语语音识别模型精调,提升语音转文字效果
芬兰语语音识别Github模型开源项目语言模型wav2vec2-xlsr-1bHuggingface训练数据
wav2vec2-xlsr-1b-finnish-lm-v2模型基于Facebook AI的多语言预训练模型,为芬兰语自动语音识别进行了优化,使用275.6小时的录音数据进行精调。模型在Common Voice 7.0和FLEURS ASR数据集的测试中取得了4.09%的词错误率(WER)和12.11%的WER。模型配有芬兰语KenLM语言模型用于解码,适合短语音片段处理。其在正式语境中的表现较佳,但普及日常口语和方言的能力有限。可通过训练自定义KenLM以适应特定领域语言。
xglm-564M - 提升跨语言AI技术的多语言自回归语言模型
多语言Github模型开源项目语言模型XGLM-564M少样本学习Huggingface参数
XGLM-564M是一个多语言自回归语言模型,具有5.64亿参数,在30种语言的平衡语料库上训练,涉及5000亿子标记。该模型适用于跨语言少样本学习,支持多语言自然语言处理,并在COPA任务上实现零样本评估。有兴趣的用户可查看model card以获取更多使用信息。
Qwen1.5-32B-Chat-GGUF - 基于Transformer架构的多语言解码模型
Github模型开源项目语言模型多语言支持量化模型HuggingfaceQwen1.5模型性能
Qwen1.5是基于Transformer的语言模型,在多个模型规模和多语言支持方面有显著提升。支持从0.5B到72B的不同模型规模,表现出色的人类偏好能力,所有模型都稳定支持32K上下文长度,无需额外信任远程代码。项目提供多种量化模型格式,并评估了Wiki数据集上的模型困惑度。改进的分词器增强了对多种自然语言和代码的支持。
OpenELM-3B-Instruct - 高效语言模型OpenELM助力开放研究
语言模型OpenELMCoreNetHuggingFace训练框架Github开源项目模型Huggingface
OpenELM项目推出了一系列高效的语言模型,通过层级缩放策略提升了准确性。项目提供完整架构,从数据准备到模型评估,并提供270M到3B参数的多个模型版本。预训练数据集涵盖RefinedWeb等,约1.8万亿词块,支持在HuggingFace Hub使用。OpenELM通过创新的参数分配和多样数据集,助力研究人员在自然语言处理领域取得进展。
Qwen2-1.5B-Instruct-AWQ - 探索具备多语言能力和高性能的新一代语言模型
Qwen2Huggingface训练细节Github开源项目模型多语言能力性能基准语言模型
Qwen2系列大语言模型在语言理解、生成、多语言处理和推理等多个方面表现出色。Qwen2-1.5B-Instruct模型经过指令微调,相较主流开源和专有模型展现出强竞争力。基于SwiGLU激活和自适应分词器,支持多语言和代码应用。通过Hugging Face Transformers可轻松下载并使用。详细了解性能和速度基准测试的信息请查看相关资料。
StableBeluga-13B - 基于Orca数据集微调的高效文本生成模型
Huggingface文本生成HuggingFace TransformersStable Beluga 13B开源项目模型Github语言模型Stability AI
Stable Beluga 13B是基于Llama2 13B的自动回归语言模型,采用Orca风格数据集进行微调,增强了对指令的跟随能力。用户可通过预定义格式与模型交互,生成高质量文本。模型使用混合精度BF16训练和AdamW优化器。在应用该技术前,需注意潜在输出风险并进行安全测试。
Qwen2-72B - 新一代开源大语言模型在多个领域表现出色的中立评估
Huggingface文本生成Qwen2-72B多语言能力开源项目模型Github语言模型评估数据集
Qwen2系列大语言模型采用改进的Transformer架构,包含多种参数尺寸,加强了在多语言、编程、数学和推理领域的表现。Qwen2-72B模型对比现有开源和专有模型,展示了其在自然语言处理、代码生成和多语言翻译方面的竞争力,支持各类复杂任务的高效执行。了解更多关于模型的功能和实用建议,为语言技术应用提供支持。
prot_bert_bfd - 用于自监督蛋白质序列分析的ProtBert-BFD模型
掩码语言模型Huggingface蛋白质序列特征提取开源项目模型Github语言模型ProtBert-BFD
ProtBert-BFD模型是一种利用Bert架构进行蛋白质序列自监督学习的预训练工具。该模型使用BFD数据集进行训练,能够捕捉蛋白质的生物物理特性,适用于特征提取和下游任务。其遮蔽语言建模方法无需人工标记即可从大规模数据中进行学习,成为生物信息学中理解蛋白质编码的有效工具。
Qwen2-1.5B-Instruct-GPTQ-Int4 - 多语言大模型Qwen2,增强理解与推理性能
量化Huggingface模型Github开源项目性能Qwen2-1.5B-Instruct语言模型
Qwen2语言模型系列在开源与专有模型对比中展现出色表现。1.5B Instruct模型优化后,适合编程、数学及推理任务,支持多语言和代码处理,并具备改进的分词功能。可高效兼容Hugging Face Transformers平台,推理速度快,内存占用低。
Bielik-7B-Instruct-v0.1 - 波兰语语言模型的优化与训练方法
波兰语Bielik-7B-Instruct-v0.1大型计算机器学习HuggingfaceGithub开源项目模型语言模型
Bielik-7B-Instruct-v0.1 是一种微调的波兰语语言模型,利用高性能计算提升语言理解能力。该模型通过权重损失和自适应学习率等技术进行优化,显著提高了性能,并提供多种精简版本。
squeezebert-uncased - SqueezeBERT:提高NLP任务效率的高效开源模型
预训练HuggingfaceGithub开源项目模型组卷积微调SqueezeBERT语言模型
SqueezeBERT是一个专注于提高自然语言处理任务效率的无大小写敏感的预训练模型。其架构通过分组卷积替换点对点全连接层,使其在Google Pixel 3设备上运行速度比bert-base-uncased快4.3倍。利用Mask Language Model和Sentence Order Prediction对模型进行了预训练,所使用的数据集包括BookCorpus和English Wikipedia。尽管模型尚未微调,但SqueezeBERT为文本分类任务奠定了坚实基础,建议使用squeezebert-mnli-headless作为起点。
Qwen1.5-4B - 一款具备多语言功能的增强型Transformer模型
转换器架构Github模型开源项目语言模型多语言支持参数规模HuggingfaceQwen1.5
Qwen1.5-4B是一款多语言Transformer模型,具有8种模型规模,支持32K上下文长度且无需信任远程代码。其设计基于SwiGLU激活和多重注意力机制,并通过改进型分词器实现高效多样的文本生成。
albert-large-v2 - 高效低内存占用的英语语言预训练模型
开源项目预训练模型模型GithubHuggingface语言模型ALBERT自监督学习掩码语言建模
ALBERT预训练模型采用英语,具有层权重共享特性,减少内存占用同时提升效率。其自监督语言学习通过掩码语言建模和句子顺序预测实现,适合用于序列和标记分类等任务。第二版模型采用更多训练数据和优化,性能优于初版。模型包含24层、128维嵌入、1024隐藏层及16个注意力头,适合掩码语言建模或句子预测,并需通过微调匹配特定任务需求。
gliner_large-v2.5 - 利用双向变压器编码器的通用命名实体识别模型
语言模型Github开源项目命名实体识别GLiNER双向Transformer编码器多语言Huggingface模型
GLiNER是一款通用命名实体识别模型,基于BERT风格的双向变压器编码器,能够识别广泛的实体类型,如人名、奖项和日期等。与传统模型相比,它无需预定义实体,且在资源受限的环境中比大型语言模型更具实用性和经济性。通过安装GLiNER Python库,即可轻松加载并预测实体。最新版在基准测试中表现出色。