#transformer模型

curated-transformers - 一个为PyTorch设计的转换器库,提供最新的模型和可复用组件
Curated TransformersPyTorchtransformer模型量化spaCy集成Github开源项目
Curated Transformers是一个为PyTorch设计的转换器库,提供最新的模型和可复用组件。支持最新的转换器模型,如Falcon、Llama和Dolly v2,具备类型注释和极少的依赖性,适合教育和生产环境。支持集成至spaCy 3.7,快速安装及支持高效的CUDA优化。
nanodl - 设计与训练变压器模型的Jax库
NanoDLJaxtransformer模型分布式训练深度学习Github开源项目
这是一个基于Jax的库,旨在简化变压器模型的开发和训练,特别适合资源有限的环境。支持多种模型如Gemma、GPT3、T5和Whisper,涵盖自然语言处理和计算机视觉任务。提供灵活的模块和层,包括Jax/Flax中未提供的RoPE、GQA、MQA和Swin注意力机制,支持多GPU/TPU的数据并行训练,简化数据处理。该库还包含加速的经典机器学习模型,帮助用户以最小的代码重写快速实现模型开发和训练。
Machine Learning at Scale - 提升工程师大规模机器学习实战能力
AI工具机器学习工程师Google大规模ML系统transformer模型YouTube广告系统
Machine Learning at Scale专注提升工程师机器学习能力。创始人Ludo是谷歌机器学习工程师,拥有丰富的大规模系统经验。网站提供高质量实践见解,涵盖海量数据处理、transformer模型和广告系统优化等领域。每周更新内容,助力工程师掌握前沿技术,增强职业竞争力。
TinyBERT_General_4L_312D - 轻量级自然语言处理模型 提升理解效率
模型模型蒸馏开源项目HuggingfaceTinyBERT自然语言理解Githubtransformer模型BERT模型压缩
TinyBERT_General_4L_312D是一个经过知识蒸馏的轻量级自然语言处理模型。相比原始BERT模型,它的体积减小了7.5倍,推理速度提升了9.4倍,同时保持了竞争性能。该模型在预训练和任务特定学习阶段都应用了创新的Transformer蒸馏技术。TinyBERT为各类自然语言处理任务提供了高效的基础,尤其适用于计算资源受限的应用场景。
bert-base-chinese-ws - BERT基础中文分词模型提升自然语言处理效率
模型BERTGithub繁体中文开源项目Huggingface自然语言处理transformer模型CKIP
CKIP实验室开发的BERT基础中文分词模型提供高效的中文文本处理功能,包括分词、词性标注和命名实体识别。该模型支持繁体中文,适用于多种自然语言处理任务。为获得最佳性能,推荐使用BertTokenizerFast作为分词器。该开源项目的详细信息和使用指南可在GitHub上查阅。
Mistral-7B-v0.1-sharded - 模型带来更高效的文本生成性能
Hugging Face大语言模型预训练开源项目Mistral 7B模型HuggingfaceGithubtransformer模型
Mistral-7B-v0.1是一个预训练的生成文本模型,拥有70亿参数,采用先进的变压器架构,并在多项基准测试中表现优于Llama 2 13B。该模型分片为2GB,以减少RAM需求,适合在资源有限的环境中应用,但不包含内容监管功能。若遇到'mistral'错误,通过安装transformers源代码可解决。
opus-mt-en-it - 基于Transformer的英意机器翻译模型
模型机器翻译开源项目Huggingface英语到意大利语OPUS-MTGithubtransformer模型BLEU评分
opus-mt-en-it是一个基于Transformer架构的英语到意大利语机器翻译模型。该模型使用OPUS数据集训练,经过normalization和SentencePiece预处理。在多个测试集上表现优异,其中Tatoeba测试集达到48.2 BLEU分和0.695 chr-F分。模型提供预训练权重下载和评估结果查看,可用于英意翻译任务。
opus-mt-es-fr - 开源西班牙语-法语神经机器翻译模型
开源项目机器翻译模型GithubOPUS-MT西班牙语法语transformer模型Huggingface
opus-mt-es-fr是基于transformer-align架构开发的西班牙语-法语机器翻译模型。模型在新闻测试集上实现32-35的BLEU评分,在Tatoeba测试集达到58.4分。项目采用OPUS数据集训练,使用normalization和SentencePiece技术预处理数据。
bigbird-roberta-base - 高性能长序列文本处理的稀疏注意力Transformer模型
BigBird开源项目深度学习模型长序列处理Githubtransformer模型自然语言处理Huggingface
BigBird-RoBERTa-base是一种基于块稀疏注意力机制的Transformer模型,可处理长达4096个token的序列。该模型在Books、CC-News、Stories和Wikipedia等大规模数据集上预训练,大幅降低了计算成本。在长文档摘要和长上下文问答等任务中,BigBird-RoBERTa-base展现出优秀性能。模型支持灵活配置注意力类型,可在默认的块稀疏模式和全注意力模式间切换,为超长序列文本处理提供了高效方案。