#预训练
Llama-2-13B-fp16 - Llama 2模型的fp16格式转换提升推理性能
Llama 2量化参数预训练模型Github开源项目模型转换文本生成Huggingface
Llama 2模型的fp16格式文件提高了生成文本模型的推理效率和转换能力。该项目通过使用Hugging Face Transformers库,将Meta的原始PTH文件转换为HF格式,方便在GPU上进行推理和进一步转换。适用于多种自然语言生成任务,包括对话优化模型Llama-2-Chat。这些模型在评估中展示出色表现,适用于商业和研究。访问Discord获取支持或加入Patreon以获得更多权益。
bert-fa-base-uncased - 波斯语领域预训练的单语言Transformer模型
开源项目情感分析模型ParsBERTGithubHuggingface命名实体识别预训练语言模型
ParsBERT是一个基于Transformer架构的波斯语单语言模型,通过大规模波斯语料库预训练,能够处理情感分析、文本分类及命名实体识别等任务。ParsBERT v2.0通过词汇表重构和新波斯语料库微调,在多项任务中表现优于多语言BERT和其他模型,提升了波斯语语言处理的效果。该模型支持掩码语言建模和后续任务微调,用户可在Hugging Face平台获取不同任务的微调版本。
Qwen-7B - 70亿参数规模的多语言开源预训练语言模型
评测Qwen-7B大语言模型HuggingfaceGithub开源项目模型预训练多语言
Qwen-7B是一个70亿参数规模的开源预训练语言模型,基于超过2.4万亿tokens的多语言语料训练而成。该模型支持15万规模的多语言词表,在常识推理、代码生成、数学计算、机器翻译等多个评测任务中表现优异。通过采用RoPE位置编码、SwiGLU激活函数等技术,Qwen-7B具备强大的多语言理解和处理能力,同时支持长文本输入和高效推理。
siglip-large-patch16-384 - 通过改进的损失函数提升多模态图像和文本的匹配效率
开源项目模型GithubHuggingfaceSigLIP多模态模型零样本学习预训练图像分类
SigLIP模型通过改进的sigmoid损失函数在图像文本配对任务中表现优异,无需成对相似性的全局视图归一化,使批量处理更加灵活高效。适用于零样本图像分类和图像文本检索等任务,展现出优秀的可用性和扩展性。在WebLI数据集上预训练,有效提升多模态任务表现,同时保持在较低复杂性问题中的有效性。了解更多,请访问模型文档。
TinyLlama-1.1B-intermediate-step-955k-token-2T - 探讨紧凑型1.1B参数模型的高效预训练
计算Huggingface参数模型Github开源项目TinyLlama预训练
TinyLlama项目目标是在3万亿标记上预训练一个具备1.1B参数的Llama模型。通过优化技术,该项目可在90天内使用16个A100-40G GPU完成训练。采用与Llama 2相同的架构和分词器,确保与其他开源项目的兼容性。TinyLlama的紧凑设计适合计算和内存受限的应用。该项目于2023年9月1日启动,计划在2023年12月1日前完成,并会逐步发布中间检查点。详细信息请查看TinyLlama GitHub页面。
Yi-1.5-6B - 提高编码数学与推理性能的AI模型升级
开源项目模型技术性能AI模型Yi-1.5开源GithubHuggingface预训练
Yi-1.5经过优质语料库的持续预训练和多样化微调,提升了在编码、数学、推理等方面的能力,保持良好的语言理解与常识推理。在多项基准测试中表现突出,不仅在同类开源模型中优越,也在某些测试中超越更大规模的模型。Yi-1.5提供多个Chat与Base模型版本,适用多种应用场景,可通过链接快速获取与部署,为现代AI应用提供有力支持。
sentiment_analysis_model - BERT模型的情感分析应用
开源项目情感分析模型GithubHuggingface模型描述无监督学习预训练BERT
该情感分析模型基于BERT,在大规模英语语料的自监督训练基础上,具备双向语句理解能力,经过精细调优,专注于文本分类任务,该项目微调BERT模型以进行情感分析,可用于自动提取文本中的情感特征。
electra-small-generator - 电教工具ELECTRA:文本编码新方法
transformerELECTRAHuggingfaceGithub开源项目模型预训练语言表示神经网络
ELECTRA是一种自监督语言表示学习方法,用于优化Transformer网络的预训练。该模型在小规模下可用单GPU运行,并在大规模数据集如SQuAD 2.0上实现了优异表现。ELECTRA的训练方式借鉴了GAN中的判别器,通过区分真实与虚假输入令牌来学习。项目库提供了ELECTRA的预训练及下游任务精调代码,适用于分类、问答和序列标注等任务。
visualglm-6b - 中英文图像交互的多模态对话模型
语言模型Huggingface多模态对话预训练模型Github图像生成开源项目VisualGLM-6B
VisualGLM-6B是一个多模态对话模型,支持中文、英文和图像交互。基于ChatGLM-6B,有78亿参数,通过BLIP2-Qformer桥接视觉和语言模型。此模型使用CogView数据集进行预训练,并在长视觉问答数据上微调,以生成符合人类偏好的回答。用户可用Python代码简便调用模型,同时提供命令行、网页示例及模型量化的详细说明。
mt5-xl - 多语言文本转换模型,支持101种语言
mT5HuggingfaceNLPGithub开源项目模型预训练多语言语言模型
mT5是一个由谷歌开发的多语言文本转换模型,通过在mC4数据集上进行预训练,涵盖101种语言。尽管未经过监督训练,mT5在多语言基准测试中表现出色。所有代码和模型检查点已公开,方便研究人员和开发者进行定制和微调,提升特定自然语言处理任务的适配性。这一模型显示了使用统一文本格式处理语言任务的最新进展。
vit5-base - 用以越南语生成任务的预训练Transformer模型
ViT5-base编码解码器HuggingfaceVietnamese开源项目模型预训练GithubTransformer
这是一个先进的预训练Transformer编码解码模型,专门用于越南语生成任务。它支持文本摘要、翻译和问答功能,并在GitHub上提供使用和微调的详细示例。
vitmatte-small-distinctions-646 - 基于ViTMatte模型的高效图像抠图技术
图像抠图轻量化ViTMatteHuggingfaceGithub开源项目模型预训练Vision Transformer
ViTMatte模型利用Distinctions-646数据集进行训练,通过与Vision Transformer的结合,实现图像前景的精确分离。此模型简化了传统图像抠图的复杂性,适用于多种应用。可在Hugging Face平台找到该模型的不同版本,以适应各种图像分离需求。
chinese_roberta_L-2_H-128 - 使用多模态预训练优化中文自然语言处理
语言模型RoBERTa预训练模型Github开源项目CLUECorpusSmallHuggingface
该项目包括24种中文RoBERTa模型,使用CLUECorpusSmall数据集进行训练,效果超过较大数据集。模型通过UER-py和TencentPretrain预训练,并支持多模态框架,参数超过十亿。模型可在HuggingFace和UER-py Modelzoo中获取。项目提供详细的训练过程和关键细节,便于结果复现,着重提升中文自然语言处理任务中的性能。
Minerva-3B-base-v1.0 - 意大利语和英语文本生成的开源模型
开源项目模型意大利语MinervaGithubHuggingface大型语言模型预训练偏见
Minerva-3B-base-v1.0是由Sapienza NLP与FAIR及CINECA合作开发的开源大型语言模型,专门在意大利语和英语文本上进行预训练。其采用3亿参数和6600亿标记数设计,基于Mistral架构,可有效进行文本生成。同时指出,这一模型在推理速度和词汇处理方面表现优良,但也可能会生成偏见或不当内容,因此在使用时需注意。
TinyLlama-1.1B-intermediate-step-1195k-token-2.5T - TinyLlama项目中的1.1B模型实现高效计算
Github开源项目TinyLlama模型LLama 2模型参数Huggingface预训练优化
TinyLlama通过创新方法,在2.5万亿tokens数据集上实现预训练,紧凑的1.1B参数设计提高了计算和内存效率,适用于多种开源项目。
samvit_base_patch16.sa1b - 高效的图像特征提取与分类工具
图像分类图像特征提取samvit_base_patch16.sa1bHuggingfaceGithub开源项目模型预训练Vision Transformer
Segment-Anything Vision Transformer(SAM ViT)模型专注于图像特征提取与分类,不含分割头。使用MAE权重进行初始化,并通过SA-1B数据集的预训练,展示出89.7M的参数量及486.4 GMACs的计算性能,适宜处理1024x1024图像。Python代码示例提供了图像分类与嵌入应用方式,用户可通过timm库使用预训练模型‘samvit_base_patch16.sa1b’以提升图像分析效率。
tapas-tiny-finetuned-wtq - TAPAS模型为WikiTable问题提供精准问答解决方案
表格问答Hugging FaceTAPAS预训练模型Github开源项目微调Huggingface
TAPAS模型经过在WikiTable Questions数据集上的精细调优,提供多种版本以满足不同需求。利用相对和绝对位置嵌入选择,在表格问答任务中表现优异。模型通过掩码语言模型和中间预训练增强数值推理能力,并通过添加单元选择头和聚合头微调SQA、WikiSQL和WTQ数据集以提升问答性能。
PharmBERT-uncased - 药品标签处理的BERT模型
Github预训练PharmBERT模型开源项目药品标签Huggingface领域专用模型BERT模型
PharmBERT 是一个专用于药品标签的 BERT 模型,通过领域相关的预训练和微调技术,提高药品信息的提取和处理能力。适合制药和生命科学领域的专业人员使用,PharmBERT 可以有效解析药品文档,提升研发效率。有关更多信息和技术细节,请访问 PharmBERT 的 GitHub 页面。
dino-vits8 - 采用DINO训练的自监督Vision Transformer模型
Github预训练模型开源项目图像分类自监督学习Vision TransformerHuggingfaceDINO
小型Vision Transformer模型使用DINO自监督方法训练,专为ImageNet-1k数据集预训练。模型通过8x8像素的固定大小图像块输入,用于图像表征,无需微调便可用于图像分类任务。ViT模型适合下游任务的特征提取,并可通过线性层进行分类。用户可在Hugging Face上找到适合特定任务的微调版本。
TinyLlama-1.1B-intermediate-step-715k-1.5T - 紧凑型AI模型的快速训练与高效优化
参数紧凑性HuggingfaceTinyLlama开源项目模型GPU预训练GithubLlama模型
TinyLlama项目在90天内利用16台A100-40G GPU完成了1.1B参数模型的预训练,涉及3万亿个令牌。该模型因其紧凑和模块化设计,适用于资源有限的多种应用场合。最新的中间检查点提供了715K步和1.49T令牌的参数,评估基准上表现均有提升。详情请访问TinyLlama GitHub页面。
t5-large-medium - 基于Transformer的日文预训练模型,提高NLP任务性能
Retrieva日语HuggingfaceT5 v1.1开源项目模型预训练GithubTransformer
该T5 v1.1模型基于Transformer架构,专为日文语料进行预训练。通过使用GEGLU激活函数代替ReLU,提升了文本生成质量。模型在预训练时关闭Dropout以提升泛化能力,微调时可重启。训练数据包括mC4/ja和日本Wikipedia,确保日文内容的纯净性。此大型模型拥有约7.7亿参数,适用于广泛的日文自然语言处理任务,表现出优异的性能与适应性。
TinyLlama-1.1B-Chat-v1.0-llamafile - 紧凑型1.1B Llama Chat模型,适用于多种计算需求
预训练Github开源项目对话模型模型HuggingfaceGPU量化TinyLlama
TinyLlama-1.1B-Chat经过3万亿个tokens的预训练,并在90天内优化完成。它提供API和CLI接口,采用与Llama 2相同的架构和分词器,适合内存和计算受限的环境,可以兼容多种开源项目。模型在合成数据集上的微调和与开源工具的对齐,增强了对话生成的多样性和准确性,适用于各种自然语言处理应用。
gpt2-chinese-cluecorpussmall - 中文GPT2预训练模型与多模态扩展简介
UER-pyTencentPretrainHuggingfaceGithub开源项目模型预训练GPT2文本生成
项目涵盖了使用UER-py和TencentPretrain的中文GPT2模型的预训练过程,从GPT2-distil到GPT2-xlarge的多个版本。借助CLUECorpusSmall数据集,这些模型有效支持中文文本生成,并扩展至多模态预训练。模型可通过UER-py Modelzoo或HuggingFace下载,用于实际文本生成应用。
squeezebert-uncased - SqueezeBERT:提高NLP任务效率的高效开源模型
预训练HuggingfaceGithub开源项目模型组卷积微调SqueezeBERT语言模型
SqueezeBERT是一个专注于提高自然语言处理任务效率的无大小写敏感的预训练模型。其架构通过分组卷积替换点对点全连接层,使其在Google Pixel 3设备上运行速度比bert-base-uncased快4.3倍。利用Mask Language Model和Sentence Order Prediction对模型进行了预训练,所使用的数据集包括BookCorpus和English Wikipedia。尽管模型尚未微调,但SqueezeBERT为文本分类任务奠定了坚实基础,建议使用squeezebert-mnli-headless作为起点。
Yi-1.5-34B-Chat - 提升语言理解与推理性能的创新
Github开源项目语言理解模型性能Yi-1.5Huggingface开源模型预训练模型
Yi-1.5通过高质量语料与多样化样本增强模型能力,在编程、数学以及推理任务中取得显著进步。同时,该项目保持出色的语言理解、常识推理和阅读理解能力。该模型在多项基准测试中表现优异,与大型模型相比,具备竞争力。用户可通过多种途径下载该模型,并快速上手操作。如需详细使用指南,请查阅README。
相关文章
从零开始构建大型语言模型:LLMs-from-scratch项目详解
2024年08月30日
Chronos: 革命性的时间序列预测模型
2024年08月30日
Firefly: 一站式大模型训练工具的全面解析
2024年08月30日
UniLM: 统一的语言模型预训练框架
2024年08月30日
领域特定大语言模型:开源模型、数据集与评测基准综述
2024年08月30日
LLM-workshop-2024: 深入理解大语言模型的实现与应用
2024年08月31日
从零开始构建迷你语言模型:一步步打造属于自己的AI助手
2024年08月31日
TencentPretrain: 腾讯开源的多模态预训练框架
2024年08月31日
LitGPT: 高性能大语言模型的预训练、微调和部署工具
2024年08月29日