#模型预训练

Nanotron: 简化大型语言模型的3D并行训练

3 个月前

Nanotron 模型预训练深度学习并行计算 Transformer Github 开源项目

3 个月前

GPT-2模型在TensorFlow 2.0中的实现与应用

3 个月前

GPT-2 OpenAi tensorflow 模型预训练文本生成 Github 开源项目

3 个月前

相关项目

gpt-2-tensorflow2.0

该项目实现了OpenAi GPT-2模型在Tensorflow 2.0中的预训练和序列生成，并提供详细的设置和训练指南。用户可以使用示例数据进行预训练或下载OpenWebText数据进行训练。支持多GPU分布式训练，并提供命令行接口和TensorBoard集成，帮助高效地进行模型训练和优化。项目遵循MIT许可证，社区贡献和改进热烈欢迎。

nanotron

Nanotron是一个开源的Transformer模型预训练库。它提供灵活API，支持自定义数据集预训练。该库特点包括高性能、可扩展性强，支持3D并行、专家并行、AFAB和1F1B调度策略、ZeRO-1优化器等先进技术。Nanotron适用于大规模模型训练，旨在提高预训练效率。

unixcoder-base

UniXcoder是微软团队开发的跨模态预训练模型，利用代码注释和抽象语法树等多模态数据来构建代码表示。该模型基于RoBERTa架构，支持代码搜索、补全、函数名预测、API推荐和代码总结等任务。UniXcoder采用灵活的编码器-解码器结构，可在多种模式下应用，为代码分析和生成提供有力支持。

cait_m36_384.fb_dist_in1k

cait_m36_384.fb_dist_in1k是一个基于类注意力图像转换器(CaiT)的图像分类模型，由Facebook研究团队开发。该模型在ImageNet-1k数据集上进行预训练和蒸馏，包含2.712亿个参数，支持384x384像素的输入图像。通过timm库，它可以轻松应用于图像分类和特征提取等计算机视觉任务。

cocodr-base-msmarco

COCODR是一个基于BERT-base架构的文本检索模型，通过BEIR语料库预训练和MS MARCO数据集微调而成。模型采用对比学习和分布鲁棒学习方法，解决零样本密集检索中的分布偏移问题。借助HuggingFace transformers框架，模型可用于文本嵌入和相似度计算。

xcit_medium_24_p8_224.fb_in1k

XCiT是Facebook Research开发的图像分类模型，在ImageNet-1k数据集上完成预训练。模型采用Cross-Covariance Image Transformer架构，拥有8430万参数，支持224x224图像输入分析。通过timm库实现，既可用于图像分类，也可作为特征提取器生成图像嵌入向量，为开发者提供便捷的模型加载和图像处理功能。

codebert-cpp

CodeBERT-CPP是基于Microsoft CodeBERT架构的C++代码分析模型，经100万步训练优化。该模型利用GitHub代码库数据进行掩码语言建模，主要用于CodeBERTScore评分系统，也适用于其他C++代码分析任务。作为开源项目，CodeBERT-CPP为开发者提供了一个专业的C++代码评估工具。

vision-perceiver-conv

Perceiver IO是一个适用于多种模态的transformer编码器模型，通过自注意力机制在固定的计算资源下实现更高效的处理。该模型在ImageNet上进行了预训练，能够通过像素级处理进行准确的图像分类。模型结合了卷积和maxpool预处理，可以生成多尺寸和多语义的输出结果，并在ImageNet-1k中实现了82.1的顶级精度。这一模型不仅可用于高效的标准图像分类，还能通过替换分类解码器实现灵活的应用扩展，适用于多种任务的特征提取。

convnextv2_huge.fcmae_ft_in22k_in1k_512

ConvNeXt-V2模型在全卷积掩码自动编码器框架下进行预训练，并在ImageNet-22k和ImageNet-1k数据集上微调，提升了图像分类和特征提取的效率。模型拥有660.3M参数，处理512x512图像，适合复杂计算需求。支持图像分类、特征图提取和图像嵌入，确保高准确率和多样化应用，结合timm库简化操作，适用于研究和工业应用。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com