#预训练模型

bert_score - 先进的自然语言生成评估工具

BERTScore自然语言处理文本生成评估预训练模型机器学习Github开源项目

BERTScore是一种创新的自然语言生成评估工具，基于BERT预训练模型的上下文嵌入技术。它通过计算候选句和参考句中单词的余弦相似度，得出精确度、召回率和F1分数。研究表明，BERTScore在句子级和系统级评估中与人工判断具有高度相关性。该项目支持130多种预训练模型，适用于多种语言的文本生成评估。BERTScore提供Python接口和命令行工具，操作简便，是自然语言处理领域的有力辅助工具。

notram - 挪威自然语言处理的突破性进展

Norwegian Transformer Model语言模型自然语言处理预训练模型语料库Github开源项目

挪威国家图书馆主导开发的NoTraM项目为挪威语和北欧语言构建了基于transformer的先进语言模型。项目发布了规模可媲美英语数据集的挪威语语料库，涵盖报纸、书籍和政府文件等多种来源。此外，项目提供预训练模型、微调模型和语料库处理工具，为挪威语自然语言处理研究奠定了坚实基础。

BioGPT - 预训练Transformer模型为生物医学文本提供强大工具

BioGPT自然语言处理生物医学文本预训练模型TransformerGithub开源项目

BioGPT是一个针对生物医学文本的预训练Transformer模型。该模型在关系提取、文档分类和问答等下游任务中表现优异。项目提供预训练模型和特定任务的微调模型，可通过多种渠道获取。BioGPT支持文本生成、特征提取等多种应用场景，为生物医学自然语言处理研究提供了实用工具。

mindcv - 基于MindSpore的开源计算机视觉框架

MindCV计算机视觉深度学习框架预训练模型图像分类Github开源项目

MindCV是一个开源计算机视觉框架，基于MindSpore构建。它集成了经典和最新的视觉模型，并提供预训练权重。通过模块化设计，支持定制化的数据处理、模型构建和训练流程。该框架适用于迁移学习和自定义CV任务开发，可在多种硬件平台上运行。MindCV注重效率与灵活性的平衡，同时提供了详细的教程和示例，方便开发者快速入门和应用。

plm-nlp-code - 自然语言处理预训练模型代码实现与学习资源

自然语言处理预训练模型PyTorchTransformers代码示例Github开源项目

plm-nlp-code项目提供《自然语言处理：基于预训练模型的方法》一书的示例代码，涵盖词嵌入到BERT等多个NLP主题。项目包含代码实现、环境设置和书中勘误，是NLP学习者和研究者的实用资源。代码基于Python 3.8.5和PyTorch 1.8.0等环境，展示了现代NLP技术的核心内容和实践应用。

vision-lstm - 将LSTM技术创新应用于计算机视觉的前沿架构

Vision-LSTMViL计算机视觉预训练模型图像处理Github开源项目

Vision-LSTM (ViL)是一个将LSTM技术创新应用于计算机视觉的开源项目。它提供了简洁的架构实现和完整的训练流程，在ImageNet-1K等视觉任务上表现优异。ViL支持多种模型配置，并提供预训练权重。项目采用双向LSTM结构，支持不同尺寸的模型（如tiny、small、base等），并提供了适用于长序列的fine-tuning版本。包含详细文档和示例，方便研究人员和开发者探索LSTM在视觉领域的应用。

relik - 高效实体链接与关系抽取的开源解决方案

ReLiK实体链接关系抽取信息抽取预训练模型Github开源项目

ReLiK是一个开源的轻量级信息抽取模型,专注于实体链接和关系抽取任务。它采用检索-阅读架构,能高效处理大规模文档并提取关键信息。ReLiK支持预训练模型快速加载,适用于多种NLP场景。该项目在保证准确性的同时大幅提升了处理速度,为自然语言处理研究提供了实用的工具。

RetroMAE - 创新的检索导向语言模型预训练技术

RetroMAE自然语言处理信息检索预训练模型BERTGithub开源项目

RetroMAE是一种创新的检索导向语言模型预训练方法。通过掩码自编码器技术，该方法在MS MARCO和BEIR等基准测试中取得了显著性能提升。项目开源了预训练模型和微调工具，并提供了详细使用说明。RetroMAE在监督检索任务中表现卓越，同时展现出优秀的零样本迁移能力，为信息检索研究带来新的突破。项目提供了多个预训练模型，包括在维基百科和图书语料上预训练的基础版本，以及在MS MARCO数据集上微调的特定版本。研究人员可以通过Hugging Face轻松加载这些模型，进行实验或进一步改进。

GENA_LM - 专为长DNA序列设计的开源基础模型家族

GENA-LMDNA序列预训练模型转化器基因组学Github开源项目

GENA-LM是专为长DNA序列设计的开源基础模型家族。它采用BPE分词方法，支持最长36k bp的输入序列，并基于最新T2T人类基因组进行预训练。该项目提供多种预训练模型，包括BERT和BigBird架构，可用于启动子预测和剪接位点识别等多种下游任务。GENA-LM为基因组学研究提供了新的分析工具，促进了DNA序列分析技术的进步。

nlu - 强大而简洁的自然语言处理Python库

NLUSpark NLP自然语言处理预训练模型Python库Github开源项目

NLU是一款功能丰富的Python库，整合了1000多个预训练模型，支持100多种语言的文本挖掘任务。该库将复杂的NLP任务简化为单行代码操作，大大提高了文本分析的效率。NLU兼容多种数据格式，包括Pandas、Spark和Modin等数据框架，以及numpy数组和字符串列表。从词嵌入到情感分析、命名实体识别，NLU提供了全面的NLP功能，是自然语言处理领域的重要工具。

Awesome-Scientific-Language-Models - 科学领域预训练语言模型资源汇总

大型语言模型科学领域预训练模型模态知识表示Github开源项目

Awesome-Scientific-Language-Models是一个涵盖多个科学领域预训练语言模型的资源列表。该项目收录了数学、物理、化学等领域的模型，包括不同参数规模和多种模态。资源列表持续更新，为科研人员提供丰富的语言模型参考和应用案例。

pix2struct - 基于截图解析的视觉语言预训练模型

Pix2Struct视觉语言理解预训练模型数据预处理实验运行Github开源项目

Pix2Struct是一个基于截图解析的视觉语言预训练模型。该模型可处理图像描述、图表问答和界面元素理解等多种任务。项目提供预训练的Base和Large模型检查点,以及9个下游任务的微调代码。Pix2Struct在多个视觉语言任务中表现优异,为相关研究提供了有力支持。

Battle-of-the-Backbones - 预训练模型在多种计算机视觉任务中的大规模性能评估

计算机视觉预训练模型图像分类目标检测图像检索Github开源项目

Battle-of-the-Backbones项目进行了预训练模型和随机初始化基线的大规模比较。研究涵盖多种计算机视觉任务，包括自然、医疗和卫星图像分类，目标检测与分割，分布外泛化和图像检索。项目提供详细实验结果和源代码，为计算机视觉研究提供了全面的模型性能评估参考。

super-gradients - 开源工具库简化SOTA计算机视觉模型的训练与部署

SuperGradients深度学习计算机视觉预训练模型模型训练Github开源项目

Super-Gradients是一个专注于计算机视觉的开源深度学习库。它提供预训练SOTA模型和易用训练工具,支持分类、分割、检测等任务。该项目集成多种训练技巧,兼容主流部署框架,可快速将模型应用于生产。Super-Gradients适用于学术研究和工业应用,是一个高效的计算机视觉开发工具。

Awesome-TimeSeries-SpatioTemporal-LM-LLM - 大型语言模型在时序和时空数据分析中的应用资源

大型语言模型时间序列时空数据基础模型预训练模型Github开源项目

该项目汇集了用于时间序列、时空数据和事件数据分析的大型语言模型及基础模型资源。内容全面涵盖了最新研究进展，包括论文、代码和数据集。涉及领域包括通用时间序列分析、交通、金融、医疗等多个应用方向，以及事件分析、时空图和视频数据等相关主题。项目为研究人员和实践者提供了一个综合性资源库，并持续更新最新成果。

opennsfw2 - Keras实现的开源NSFW图像视频检测工具

OpenNSFW 2NSFW检测图像分类Keras预训练模型Github开源项目

opennsfw2是一个基于Keras的开源图像分类模型，用于检测不适宜工作场合(NSFW)的内容。该项目提供简单API，可对图片和视频进行NSFW概率预测。支持TensorFlow和JAX后端，兼容Python 3.9-3.11。项目功能包括图像预处理、模型加载和批量推理，是一个完整的NSFW内容检测工具。

LaMDA-rlhf-pytorch - Google对话AI模型的开源预训练实现

LaMDA预训练模型自然语言处理开源实现transformer架构Github开源项目

LaMDA-rlhf-pytorch是Google LaMDA对话AI模型的开源PyTorch实现，聚焦2B参数预训练架构。项目整合了T5相对位置编码、门控GELU激活函数和GPT式解码器结构，并提供预训练脚本、Hugging Face数据集集成和Weights & Biases日志记录功能。后续将加入SentencePiece分词器、详细文档、微调脚本和推理能力。此项目为AI研究者和开发者提供了研究大规模对话模型的平台。

MASR - 基于Pytorch的开源自动语音识别框架

语音识别MASRPytorch流式识别预训练模型Github开源项目

MASR是基于Pytorch开发的自动语音识别框架，支持流式和非流式识别。框架集成了多种模型，如deepspeech2、conformer等，可用于短语音和长语音识别。MASR具备集束搜索和贪心解码功能，提供预训练模型，支持多设备部署。项目设计简洁实用，支持中英文识别，并配有完整文档。

KoBigBird - 支持长序列处理的韩语预训练模型

KoBigBird预训练模型自然语言处理长序列处理韩语Github开源项目

KoBigBird是基于BigBird架构的韩语预训练模型，支持处理长达4096个token的序列。通过稀疏注意力机制，其计算复杂度从O(n²)降至O(n)。在短序列和长序列任务评估中，KoBigBird表现优异。项目包含使用指南、预训练方法和评估结果，为韩语自然语言处理提供支持。

Pytorch-NLU - 轻量级NLP工具包支持文本分类和序列标注

Pytorch-NLU自然语言处理文本分类序列标注预训练模型Github开源项目

Pytorch-NLU是一个轻量级自然语言处理工具包，专注于文本分类、序列标注和文本摘要任务。该工具包支持BERT、ERNIE等多种预训练模型，提供多种损失函数，具有依赖少、代码简洁、注释详细、配置灵活等特点。Pytorch-NLU包含丰富的数据集，使用方式简单，可快速应用于实际NLP项目中。

PaSST - Patchout技术优化音频变换器训练效率及性能

PaSST音频转换器Patchout预训练模型音频分类Github开源项目

PaSST项目开发的Patchout方法通过丢弃部分输入patch优化音频频谱图变换器模型训练。该技术显著降低训练时间和GPU内存消耗，同时提升模型性能。Patchout支持随机丢弃或丢弃整个时间帧、频率区间。项目提供预训练模型、推理和嵌入提取功能，以及下游任务微调框架，为音频AI研究和应用提供全面支持。

3D-VisTA - 简化3D视觉和文本对齐的新型预训练模型

3D-VisTA计算机视觉自然语言处理预训练模型多模态融合Github开源项目

3D-VisTA是一种新型预训练变换器模型,专注于3D视觉和文本对齐。该模型采用简洁统一的架构,无需复杂的任务特定设计,可轻松适应多种下游任务。通过在大规模ScanScribe数据集上预训练,3D-VisTA在视觉定位、密集字幕生成等3D视觉语言理解任务中达到了领先水平。此外,该模型还表现出优异的数据效率,即使在标注数据有限的情况下也能保持强劲性能。

LibtorchSegmentation - 高性能C++图像分割库

LibTorch图像分割神经网络C++库预训练模型Github开源项目

LibtorchSegmentation是基于LibTorch的C++图像分割库，提供高级API和多种模型架构。支持15种预训练编码器，推理速度比PyTorch CUDA快35%。该库简单易用yet功能强大，适合快速开发和部署各类图像分割应用。

hailo_model_zoo - 面向多AI任务的深度学习预训练模型集合

Hailo Model Zoo深度学习预训练模型模型优化Hailo硬件Github开源项目

Hailo模型库提供针对分类、检测和分割等AI任务的预训练深度学习模型。用户可测量模型的全精度和量化精度,并生成用于Hailo硬件加速的HEF文件。该库还包含自定义数据集重训练指南和特定用例模型。支持快速上手、性能评估及Hailo硬件部署,助力高效AI应用开发。

transformers-php - 先进的PHP机器学习库

TransformersPHP机器学习PHPONNX预训练模型Github开源项目

TransformersPHP是一个PHP机器学习库,提供与Python版Transformers相同的功能。基于Hugging Face的Transformers构建,支持众多预训练模型,适用于文本生成、摘要、翻译等任务。该库采用ONNX Runtime执行模型,性能优异。通过简洁的API,PHP开发者可以方便地在项目中集成先进的机器学习技术。

vietTTS - 开源越南语文本转语音系统

TTS语音合成HiFiGAN越南语预训练模型Github开源项目

vietTTS是一个开源的越南语文本转语音系统，集成了持续时间模型、声学模型和HiFiGAN声码器。项目提供预训练模型、数据处理工具、训练脚本和合成接口，便于研究和开发。包含详细文档，涵盖安装、数据准备和模型训练，对越南语语音合成技术发展具有参考价值。项目提供在线演示和音频样例，直观展示效果。目前项目已停止更新，新版本已迁移至LightSpeed项目，其中包含新的男声模型。

awesome-pretrained-models-for-information-retrieval - 信息检索领域预训练模型研究综述与最新进展

信息检索预训练模型神经网络深度学习搜索引擎Github开源项目

该项目汇集了信息检索领域预训练模型相关的重要论文资源。内容涵盖第一阶段检索、重排序、联合学习等核心技术，以及大语言模型应用和多模态检索等前沿主题。项目提供了全面的文献综述，有助于研究人员和从业者了解该领域的最新进展和发展方向。资源列表系统梳理了稀疏检索、密集检索等关键技术，为相关研究提供了宝贵的参考。

torchxrayvision - 胸部X光影像分析工具库

TorchXRayVision胸部X光深度学习预训练模型数据集Github开源项目

TorchXRayVision是一个开源的胸部X光影像分析工具库,为多个公开数据集提供统一接口和预处理流程。它包含多种预训练模型,可用于快速分析大型数据集、实现少样本学习,以及在多个外部数据集上评估算法性能。该库旨在简化胸部X光影像研究工作流程,提高分析效率。

GODEL-v1_1-large-seq2seq - 提升对话任务表现的大规模预训练模型

HuggingfaceGODELTransformer模型开源项目模型预训练模型多轮对话Github对话生成

GODEL是为目标导向对话设计的预训练模型，使用基于Transformer的编码器-解码器架构，能从外部文本中生成响应。该模型在需要外部信息支持的对话任务中表现出色。v1.1版本在551M条Reddit多轮对话及5M条指令和知识对话上训练，能通过少量特定对话高效微调，适合需要情感共鸣或基于知识生成安全响应的情境。

SecRoBERTa - 改善网络安全任务的预训练语言模型

Github事件信息提取开源项目网络安全威胁情报Huggingface预训练模型SecRoBERTa模型

SecRoBERTa是一款专为网络安全文本设计的预训练语言模型，提升了命名实体识别和文本分类等任务的性能。该模型通过APTnotes、Stucco-Data和CASIE等数据集进行训练，优化了词汇处理能力，从而更有效地应用于网络安全领域。

T5-Base-finetuned-for-Question-Generation - SQuAD数据集上T5模型的问答生成能力提升研究

问题生成预训练模型TransformersGithub开源项目HuggingfaceSQuADT5模型

本项目在SQuAD数据集上对T5模型进行微调，专注于问答生成功能的提升。利用PyTorch和Transformers库，该模型可基于指定的答案和上下文生成相关问题，显著提高了问答系统的自动化水平，适用于文本、视觉和音频等多模态任务。

line-distilbert-base-japanese - LINE DistilBERT模型推动日语文本智能处理

日本语HuggingfaceLINE DistilBERT预训练模型Github开源项目模型Apache License 2.0模型架构

LINE Corporation推出的DistilBERT模型专为日语文本处理而设计，基于BERT-base教师模型，在131 GB日语网络文本上完成了预训练。模型采用DistilBERT架构，有6层、768隐层、12个注意力头和66M参数。评估结果优秀，JGLUE评测中表现出色。其使用MeCab和SentencePiece进行分词和子词处理，词汇量为32768。适用于多种日语NLP任务，遵循Apache 2.0许可证。在GitHub上提供更多信息。

MOMENT-1-large - 多功能时间序列分析基础模型：预测、分类、异常检测和填补

基础模型模型GithubMOMENT预训练模型时间序列分析开源项目Huggingface机器学习

MOMENT-1-large是一款专为时间序列分析设计的多功能基础模型。它能够高效处理预测、分类、异常检测和数据填补等多种任务。该模型具有出色的零样本和少样本学习能力，可以在缺少或仅有少量任务特定样本的情况下直接使用。此外，MOMENT-1-large支持使用领域相关数据进行微调，以进一步提升性能。作为一个灵活而强大的工具，它为各类时间序列分析任务提供了有力支持。

vit-mae-large - MAE预训练的大型Vision Transformer模型

模型自编码器Github图像处理预训练模型Vision Transformer开源项目Huggingface机器学习

这是一个使用MAE方法预训练的大型Vision Transformer模型。通过随机遮挡75%的图像块进行自监督学习,该模型有效学习图像的内部表示。它可用于图像分类等下游视觉任务,采用masked autoencoder架构进行预训练。该模型由Facebook Research团队开发,基于ImageNet-1K数据集训练,适用于各种计算机视觉应用。

bigvgan_v2_22khz_80band_256x - 大规模训练的通用神经网络声码器高性能音频生成模型

模型CUDA加速音频生成GithubBigVGAN预训练模型神经声码器Huggingface开源项目

BigVGAN是一个通用神经网络声码器,支持高达44kHz采样率和512倍上采样。其最新版本优化了推理速度,改进了模型结构,并使用大规模多样化数据集训练。该模型在语音合成基准测试中表现出色,为音频生成任务提供了高性能解决方案。

TTS - 高性能文本到语音生成库，支持多语言

TTSMozillaText-to-Speech预训练模型多语言支持Github开源项目

TTS库基于最新研究成果，提供高效的文本到语音生成技术，实现了训练便捷、速度快、质量高的最佳平衡。该库包括预训练模型和数据集质量评估工具，已被广泛应用于20多种语言的产品和研究项目。支持多说话人TTS、快速模型训练、多GPU训练，并兼容PyTorch、TensorFlow和TFLite等多种平台。

相关文章

Article Cover

CycleGAN: 无配对图像到图像转换的革命性技术

Article Cover

TTS技术:让文字发声的魔法

Article Cover

3D-ResNets-PyTorch: 深度学习在视频动作识别中的应用

Article Cover

GPT-Neo:开源大规模语言模型的突破性进展

Article Cover

So-vits-svc-fork: 实时语音转换的开源解决方案

Article Cover

OpenCLIP: 开源实现的CLIP模型

Article Cover

FaceNet: 深度学习人脸识别的革命性技术

Article Cover

基于迁移学习的对话AI系统：构建先进的对话智能

Article Cover

Pyannote：揭秘声音的DNA，精准分辨出各个发言者的声音

2024年08月03日

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com

@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号