#语言模型

Llama-2-ko-7b-Chat - Llama-2拓展到韩语文本生成的进展与优化
Github开源项目NLP模型语言模型Huggingface文本生成训练Llama 2
Llama-2-Ko-7b-Chat通过结合Llama-2预训练模型和特定韩语数据集kullm-v2,致力于提升韩语文本生成能力,实现对话支持。Taemin Kim和Juwon Kim基于Naver BoostCamp NLP-08开发并持续更新优化此项目。模型只接受和生成文本,采用先进技术以提高生成质量,为研究新语言处理能力和优化方案的研究者及开发者提供参考。
Llama3.1-70B-Chinese-Chat - 中英双语优化的Llama3.1-70B指令微调模型
开源项目Llama3.1-70B-Chinese-Chat角色扮演模型语言模型Huggingface细致调整文本生成Github
项目基于Meta-Llama-3.1-70B-Instruct模型,优化针对中英用户,支持角色扮演、函数调用和数学能力。模型使用超10万偏好对数据集训练,提供q3_k_m、q4_k_m、q8_0和f16 GGUF版本。使用ORPO算法进行全参数微调,并基于LLaMA-Factory框架。用户需升级transformers库以下载使用BF16模型,亦可使用GGUF模型进行多种方式推理。
dictalm2.0-instruct - 支持对话功能的希伯来语大型语言模型
自然语言生成开源项目模型GithubHuggingface指令微调希伯来语语言模型DictaLM-2.0
通过对DictaLM-2.0模型的指令调优,此项目提升了大型语言模型在希伯来语环境下的指令执行和词汇能力。采用高精度配置和扩展的希伯来语指令数据集,遵循Zephyr-7B-beta的调整方案,专为对话设计,旨在提供流畅的聊天体验。尽管表现出色,但尚未集成内容审核机制,项目期待与社区合作,优化模型在内容监控环境中的应用。
ukr-roberta-base - 乌克兰文HuggingFace模型的语料库预训练
HuggingFace开源项目模型GithubHuggingfaceukr-roberta-baseUkrainian Wikipedia训练数据语言模型
该项目使用乌克兰语言的多种语料库,并结合HuggingFace的Roberta分词器进行了处理。所使用的语料包括乌克兰维基百科、OSCAR数据集及社交网络样本。通过V100硬件加速的方法,预训练出与roberta-base-cased架构类似的模型,拥有12层、768个隐藏单元和125M参数。有关详细的训练配置和技术细节,请参阅原始项目。
maestrale-chat-v0.4-beta - 优化意大利语语言处理的SFT与DPO对齐模型
Github微调模型模型描述意大利语语言模型开源项目Maestrale-chatHuggingface
该模型专注于意大利语处理,基于Mistral-7b模型在大规模高质量语料库上的预训练,并结合了occiglot模型。对170万次对话和指令进行微调后,提升了数学、推理能力和拉丁文翻译能力。适用于多种应用场景,如生成Mermaid思维导图和SQL代码,采用ChatML提示格式。此外,作为Beta版设计,模型具有‘安全性’,能够拒绝有害问题的回答。
Qwen2-1.5B-Ita - Qwen2 1.5B高效意大利语语言模型表现接近大型模型
语言模型Github变形金刚库开源项目模型意大利语模型Huggingface性能评估Qwen2 1.5B
Qwen2 1.5B是一款专为意大利语优化的小型语言模型,拥有1.5亿参数,性能接近于9亿参数的ITALIA模型。该模型在意大利语应用中表现优异,特别是在MMLU基准测试中展示卓越的多任务语言理解能力。尽管在ARC和HELLASWAG基准上稍逊一筹,但其综合表现仍具备效率和能力的良好平衡。
wav2vec2-xlsr-1b-finnish-lm-v2 - 芬兰语语音识别模型精调,提升语音转文字效果
芬兰语语音识别Github模型开源项目语言模型wav2vec2-xlsr-1bHuggingface训练数据
wav2vec2-xlsr-1b-finnish-lm-v2模型基于Facebook AI的多语言预训练模型,为芬兰语自动语音识别进行了优化,使用275.6小时的录音数据进行精调。模型在Common Voice 7.0和FLEURS ASR数据集的测试中取得了4.09%的词错误率(WER)和12.11%的WER。模型配有芬兰语KenLM语言模型用于解码,适合短语音片段处理。其在正式语境中的表现较佳,但普及日常口语和方言的能力有限。可通过训练自定义KenLM以适应特定领域语言。
xglm-564M - 提升跨语言AI技术的多语言自回归语言模型
多语言Github模型开源项目语言模型XGLM-564M少样本学习Huggingface参数
XGLM-564M是一个多语言自回归语言模型,具有5.64亿参数,在30种语言的平衡语料库上训练,涉及5000亿子标记。该模型适用于跨语言少样本学习,支持多语言自然语言处理,并在COPA任务上实现零样本评估。有兴趣的用户可查看model card以获取更多使用信息。
Qwen1.5-32B-Chat-GGUF - 基于Transformer架构的多语言解码模型
Github模型开源项目语言模型多语言支持量化模型HuggingfaceQwen1.5模型性能
Qwen1.5是基于Transformer的语言模型,在多个模型规模和多语言支持方面有显著提升。支持从0.5B到72B的不同模型规模,表现出色的人类偏好能力,所有模型都稳定支持32K上下文长度,无需额外信任远程代码。项目提供多种量化模型格式,并评估了Wiki数据集上的模型困惑度。改进的分词器增强了对多种自然语言和代码的支持。
OpenELM-3B-Instruct - 高效语言模型OpenELM助力开放研究
语言模型OpenELMCoreNetHuggingFace训练框架Github开源项目模型Huggingface
OpenELM项目推出了一系列高效的语言模型,通过层级缩放策略提升了准确性。项目提供完整架构,从数据准备到模型评估,并提供270M到3B参数的多个模型版本。预训练数据集涵盖RefinedWeb等,约1.8万亿词块,支持在HuggingFace Hub使用。OpenELM通过创新的参数分配和多样数据集,助力研究人员在自然语言处理领域取得进展。
Qwen2-1.5B-Instruct-AWQ - 探索具备多语言能力和高性能的新一代语言模型
Qwen2Huggingface训练细节Github开源项目模型多语言能力性能基准语言模型
Qwen2系列大语言模型在语言理解、生成、多语言处理和推理等多个方面表现出色。Qwen2-1.5B-Instruct模型经过指令微调,相较主流开源和专有模型展现出强竞争力。基于SwiGLU激活和自适应分词器,支持多语言和代码应用。通过Hugging Face Transformers可轻松下载并使用。详细了解性能和速度基准测试的信息请查看相关资料。
StableBeluga-13B - 基于Orca数据集微调的高效文本生成模型
Huggingface文本生成HuggingFace TransformersStable Beluga 13B开源项目模型Github语言模型Stability AI
Stable Beluga 13B是基于Llama2 13B的自动回归语言模型,采用Orca风格数据集进行微调,增强了对指令的跟随能力。用户可通过预定义格式与模型交互,生成高质量文本。模型使用混合精度BF16训练和AdamW优化器。在应用该技术前,需注意潜在输出风险并进行安全测试。
Qwen2-72B - 新一代开源大语言模型在多个领域表现出色的中立评估
Huggingface文本生成Qwen2-72B多语言能力开源项目模型Github语言模型评估数据集
Qwen2系列大语言模型采用改进的Transformer架构,包含多种参数尺寸,加强了在多语言、编程、数学和推理领域的表现。Qwen2-72B模型对比现有开源和专有模型,展示了其在自然语言处理、代码生成和多语言翻译方面的竞争力,支持各类复杂任务的高效执行。了解更多关于模型的功能和实用建议,为语言技术应用提供支持。
prot_bert_bfd - 用于自监督蛋白质序列分析的ProtBert-BFD模型
掩码语言模型Huggingface蛋白质序列特征提取开源项目模型Github语言模型ProtBert-BFD
ProtBert-BFD模型是一种利用Bert架构进行蛋白质序列自监督学习的预训练工具。该模型使用BFD数据集进行训练,能够捕捉蛋白质的生物物理特性,适用于特征提取和下游任务。其遮蔽语言建模方法无需人工标记即可从大规模数据中进行学习,成为生物信息学中理解蛋白质编码的有效工具。
Qwen2-1.5B-Instruct-GPTQ-Int4 - 多语言大模型Qwen2,增强理解与推理性能
量化Huggingface模型Github开源项目性能Qwen2-1.5B-Instruct语言模型
Qwen2语言模型系列在开源与专有模型对比中展现出色表现。1.5B Instruct模型优化后,适合编程、数学及推理任务,支持多语言和代码处理,并具备改进的分词功能。可高效兼容Hugging Face Transformers平台,推理速度快,内存占用低。
Bielik-7B-Instruct-v0.1 - 波兰语语言模型的优化与训练方法
波兰语Bielik-7B-Instruct-v0.1大型计算机器学习HuggingfaceGithub开源项目模型语言模型
Bielik-7B-Instruct-v0.1 是一种微调的波兰语语言模型,利用高性能计算提升语言理解能力。该模型通过权重损失和自适应学习率等技术进行优化,显著提高了性能,并提供多种精简版本。
squeezebert-uncased - SqueezeBERT:提高NLP任务效率的高效开源模型
预训练HuggingfaceGithub开源项目模型组卷积微调SqueezeBERT语言模型
SqueezeBERT是一个专注于提高自然语言处理任务效率的无大小写敏感的预训练模型。其架构通过分组卷积替换点对点全连接层,使其在Google Pixel 3设备上运行速度比bert-base-uncased快4.3倍。利用Mask Language Model和Sentence Order Prediction对模型进行了预训练,所使用的数据集包括BookCorpus和English Wikipedia。尽管模型尚未微调,但SqueezeBERT为文本分类任务奠定了坚实基础,建议使用squeezebert-mnli-headless作为起点。
Qwen1.5-4B - 一款具备多语言功能的增强型Transformer模型
转换器架构Github模型开源项目语言模型多语言支持参数规模HuggingfaceQwen1.5
Qwen1.5-4B是一款多语言Transformer模型,具有8种模型规模,支持32K上下文长度且无需信任远程代码。其设计基于SwiGLU激活和多重注意力机制,并通过改进型分词器实现高效多样的文本生成。
albert-large-v2 - 高效低内存占用的英语语言预训练模型
开源项目预训练模型模型GithubHuggingface语言模型ALBERT自监督学习掩码语言建模
ALBERT预训练模型采用英语,具有层权重共享特性,减少内存占用同时提升效率。其自监督语言学习通过掩码语言建模和句子顺序预测实现,适合用于序列和标记分类等任务。第二版模型采用更多训练数据和优化,性能优于初版。模型包含24层、128维嵌入、1024隐藏层及16个注意力头,适合掩码语言建模或句子预测,并需通过微调匹配特定任务需求。
gliner_large-v2.5 - 利用双向变压器编码器的通用命名实体识别模型
语言模型Github开源项目命名实体识别GLiNER双向Transformer编码器多语言Huggingface模型
GLiNER是一款通用命名实体识别模型,基于BERT风格的双向变压器编码器,能够识别广泛的实体类型,如人名、奖项和日期等。与传统模型相比,它无需预定义实体,且在资源受限的环境中比大型语言模型更具实用性和经济性。通过安装GLiNER Python库,即可轻松加载并预测实体。最新版在基准测试中表现出色。
bloom - 提升多语言文本生成的大规模语言模型
BLOOM开源项目模型GithubHuggingface文本生成多语言BigScience语言模型
BLOOM是一个自回归大规模语言模型,使用工业级计算资源训练,能够以46种语言和13种编程语言生成逼真的文本。该模型不仅胜任特定的任务,同时也能转换文本生成其他未明确训练的任务。BLOOM的设计强调多语言文本生成,对于公共研究提供了重要支持,其在法国的超级计算机上训练,以减少环境影响。
flaubert_small_cased - 用于法语自然语言处理的无监督语言模型
语言模型FlauBERTCNRSGithub开源项目法语Huggingface无监督预训练模型
FlauBERT是基于大型法语语料库进行预训练的无监督语言模型,提供多种尺寸选择。结合FLUE评估平台,增强法语自然语言处理的评估能力。该项目利用CNRS Jean Zay超算机,支持未来的可重复实验,并已集成于Hugging Face的Transformers库中,便于开发者应用。
Qwen1.5-MoE-A2.7B - 提高模型生成速度与资源效率的Transformer架构MoE语言模型
Mixture of ExpertsHuggingfaceQwen1.5-MoE-A2.7B文字生成开源项目transformers模型Github语言模型
Qwen1.5-MoE-A2.7B是一种基于Transformer架构和专家混合(MoE)的大规模预训练语言模型,通过重构密集模型来增强性能。它推理速度提高1.74倍,训练资源仅为类似模型的25%。建议在使用中结合SFT或RLHF等后训练技术,以进一步改进文本生成能力。详细信息及源码可在博客和GitHub仓库中查看。
roberta-base-bne - 基于西班牙国家图书馆数据的RoBERTa语言模型
西班牙语开源项目国家图书馆roberta-base-bne模型语言模型Huggingface填空任务Github
roberta-base-bne是一种基于西班牙国家图书馆560GB文本进行大规模预训练的西班牙语掩码语言模型,适用于问答、文本分类和命名实体识别等。该模型可能存在偏见,建议为具体任务进行微调。如有问题,可联系巴塞罗那超级计算中心的文本挖掘团队。
deepseek-llm-7b-chat - 7B参数中英双语模型,开放源代码以支持研究
DeepSeek LLM商业用途开源项目Github模型开源Huggingface中文语言模型
DeepSeek LLM 是一种含有7B参数的语言模型,在中英文数据上进行广泛训练,并开源以支持研究。模型经过指令优化,适用于自然语言处理任务,并通过示例展示了互动方式,如聊天功能。该模型支持商业用途,其使用需符合许可协议。
OLMo-1B-hf - 结合开放性与多功能性提升语言模型科学
开放语言模型开源项目模型GithubHuggingfaceTransformerDolma数据集OLMo语言模型
OLMo是一个由Allen Institute for AI开发的开源语言模型,支持Hugging Face Transformers格式和Dolma数据集,具有自回归Transformer架构,适合多种语言处理任务,涵盖完整训练代码和检查点。
distilbert-base-uncased-go-emotions-student - 面向GoEmotions数据集的高效情感分类模型
开源项目文本分类Github模型Huggingface零样本分类模型蒸馏GoEmotions语言模型
该模型运用未标注GoEmotions数据集,利用零样本学习技术进行精炼。尽管其性能可能略逊于完全监督下的模型,但它展示了如何将复杂的自然语言推理模型简化为高效的模型,以便在未标注数据上进行分类器训练。
scibert_scivocab_cased - 科学文献领域的预训练语言模型
语言模型科学文本语料库SciBERTGithub模型开源项目预训练模型Huggingface
SciBERT是一款用于科学文本的预训练语言模型,基于Semantic Scholar的114万篇论文和31亿个标记进行训练。其专有的scivocab词汇表利于更好地匹配训练语料,支持cased和uncased模型版本,适合科学文献分析。
POLAR-14B-v0.2 - 韩文大语言模型助力生态系统
Github开源项目模型偏见与风险语言模型Huggingface开源POLARAI实验室
POLAR-14B-v0.2由Plateer AI实验室开发,受启于SOLAR,致力于韩文语言模型的持续发展与贡献。