#预训练模型
bert_score - 先进的自然语言生成评估工具
BERTScore自然语言处理文本生成评估预训练模型机器学习Github开源项目
BERTScore是一种创新的自然语言生成评估工具,基于BERT预训练模型的上下文嵌入技术。它通过计算候选句和参考句中单词的余弦相似度,得出精确度、召回率和F1分数。研究表明,BERTScore在句子级和系统级评估中与人工判断具有高度相关性。该项目支持130多种预训练模型,适用于多种语言的文本生成评估。BERTScore提供Python接口和命令行工具,操作简便,是自然语言处理领域的有力辅助工具。
notram - 挪威自然语言处理的突破性进展
Norwegian Transformer Model语言模型自然语言处理预训练模型语料库Github开源项目
挪威国家图书馆主导开发的NoTraM项目为挪威语和北欧语言构建了基于transformer的先进语言模型。项目发布了规模可媲美英语数据集的挪威语语料库,涵盖报纸、书籍和政府文件等多种来源。此外,项目提供预训练模型、微调模型和语料库处理工具,为挪威语自然语言处理研究奠定了坚实基础。
BioGPT - 预训练Transformer模型为生物医学文本提供强大工具
BioGPT自然语言处理生物医学文本预训练模型TransformerGithub开源项目
BioGPT是一个针对生物医学文本的预训练Transformer模型。该模型在关系提取、文档分类和问答等下游任务中表现优异。项目提供预训练模型和特定任务的微调模型,可通过多种渠道获取。BioGPT支持文本生成、特征提取等多种应用场景,为生物医学自然语言处理研究提供了实用工具。
mindcv - 基于MindSpore的开源计算机视觉框架
MindCV计算机视觉深度学习框架预训练模型图像分类Github开源项目
MindCV是一个开源计算机视觉框架,基于MindSpore构建。它集成了经典和最新的视觉模型,并提供预训练权重。通过模块化设计,支持定制化的数据处理、模型构建和训练流程。该框架适用于迁移学习和自定义CV任务开发,可在多种硬件平台上运行。MindCV注重效率与灵活性的平衡,同时提供了详细的教程和示例,方便开发者快速入门和应用。
plm-nlp-code - 自然语言处理预训练模型代码实现与学习资源
自然语言处理预训练模型PyTorchTransformers代码示例Github开源项目
plm-nlp-code项目提供《自然语言处理:基于预训练模型的方法》一书的示例代码,涵盖词嵌入到BERT等多个NLP主题。项目包含代码实现、环境设置和书中勘误,是NLP学习者和研究者的实用资源。代码基于Python 3.8.5和PyTorch 1.8.0等环境,展示了现代NLP技术的核心内容和实践应用。
vision-lstm - 将LSTM技术创新应用于计算机视觉的前沿架构
Vision-LSTMViL计算机视觉预训练模型图像处理Github开源项目
Vision-LSTM (ViL)是一个将LSTM技术创新应用于计算机视觉的开源项目。它提供了简洁的架构实现和完整的训练流程,在ImageNet-1K等视觉任务上表现优异。ViL支持多种模型配置,并提供预训练权重。项目采用双向LSTM结构,支持不同尺寸的模型(如tiny、small、base等),并提供了适用于长序列的fine-tuning版本。包含详细文档和示例,方便研究人员和开发者探索LSTM在视觉领域的应用。
relik - 高效实体链接与关系抽取的开源解决方案
ReLiK实体链接关系抽取信息抽取预训练模型Github开源项目
ReLiK是一个开源的轻量级信息抽取模型,专注于实体链接和关系抽取任务。它采用检索-阅读架构,能高效处理大规模文档并提取关键信息。ReLiK支持预训练模型快速加载,适用于多种NLP场景。该项目在保证准确性的同时大幅提升了处理速度,为自然语言处理研究提供了实用的工具。
RetroMAE - 创新的检索导向语言模型预训练技术
RetroMAE自然语言处理信息检索预训练模型BERTGithub开源项目
RetroMAE是一种创新的检索导向语言模型预训练方法。通过掩码自编码器技术,该方法在MS MARCO和BEIR等基准测试中取得了显著性能提升。项目开源了预训练模型和微调工具,并提供了详细使用说明。RetroMAE在监督检索任务中表现卓越,同时展现出优秀的零样本迁移能力,为信息检索研究带来新的突破。项目提供了多个预训练模型,包括在维基百科和图书语料上预训练的基础版本,以及在MS MARCO数据集上微调的特定版本。研究人员可以通过Hugging Face轻松加载这些模型,进行实验或进一步改进。
GENA_LM - 专为长DNA序列设计的开源基础模型家族
GENA-LMDNA序列预训练模型转化器基因组学Github开源项目
GENA-LM是专为长DNA序列设计的开源基础模型家族。它采用BPE分词方法,支持最长36k bp的输入序列,并基于最新T2T人类基因组进行预训练。该项目提供多种预训练模型,包括BERT和BigBird架构,可用于启动子预测和剪接位点识别等多种下游任务。GENA-LM为基因组学研究提供了新的分析工具,促进了DNA序列分析技术的进步。
nlu - 强大而简洁的自然语言处理Python库
NLUSpark NLP自然语言处理预训练模型Python库Github开源项目
NLU是一款功能丰富的Python库,整合了1000多个预训练模型,支持100多种语言的文本挖掘任务。该库将复杂的NLP任务简化为单行代码操作,大大提高了文本分析的效率。NLU兼容多种数据格式,包括Pandas、Spark和Modin等数据框架,以及numpy数组和字符串列表。从词嵌入到情感分析、命名实体识别,NLU提供了全面的NLP功能,是自然语言处理领域的重要工具。
Awesome-Scientific-Language-Models - 科学领域预训练语言模型资源汇总
大型语言模型科学领域预训练模型模态知识表示Github开源项目
Awesome-Scientific-Language-Models是一个涵盖多个科学领域预训练语言模型的资源列表。该项目收录了数学、物理、化学等领域的模型,包括不同参数规模和多种模态。资源列表持续更新,为科研人员提供丰富的语言模型参考和应用案例。
pix2struct - 基于截图解析的视觉语言预训练模型
Pix2Struct视觉语言理解预训练模型数据预处理实验运行Github开源项目
Pix2Struct是一个基于截图解析的视觉语言预训练模型。该模型可处理图像描述、图表问答和界面元素理解等多种任务。项目提供预训练的Base和Large模型检查点,以及9个下游任务的微调代码。Pix2Struct在多个视觉语言任务中表现优异,为相关研究提供了有力支持。
Battle-of-the-Backbones - 预训练模型在多种计算机视觉任务中的大规模性能评估
计算机视觉预训练模型图像分类目标检测图像检索Github开源项目
Battle-of-the-Backbones项目进行了预训练模型和随机初始化基线的大规模比较。研究涵盖多种计算机视觉任务,包括自然、医疗和卫星图像分类,目标检测与分割,分布外泛化和图像检索。项目提供详细实验结果和源代码,为计算机视觉研究提供了全面的模型性能评估参考。
super-gradients - 开源工具库简化SOTA计算机视觉模型的训练与部署
SuperGradients深度学习计算机视觉预训练模型模型训练Github开源项目
Super-Gradients是一个专注于计算机视觉的开源深度学习库。它提供预训练SOTA模型和易用训练工具,支持分类、分割、检测等任务。该项目集成多种训练技巧,兼容主流部署框架,可快速将模型应用于生产。Super-Gradients适用于学术研究和工业应用,是一个高效的计算机视觉开发工具。
Awesome-TimeSeries-SpatioTemporal-LM-LLM - 大型语言模型在时序和时空数据分析中的应用资源
大型语言模型时间序列时空数据基础模型预训练模型Github开源项目
该项目汇集了用于时间序列、时空数据和事件数据分析的大型语言模型及基础模型资源。内容全面涵盖了最新研究进展,包括论文、代码和数据集。涉及领域包括通用时间序列分析、交通、金融、医疗等多个应用方向,以及事件分析、时空图和视频数据等相关主题。项目为研究人员和实践者提供了一个综合性资源库,并持续更新最新成果。
opennsfw2 - Keras实现的开源NSFW图像视频检测工具
OpenNSFW 2NSFW检测图像分类Keras预训练模型Github开源项目
opennsfw2是一个基于Keras的开源图像分类模型,用于检测不适宜工作场合(NSFW)的内容。该项目提供简单API,可对图片和视频进行NSFW概率预测。支持TensorFlow和JAX后端,兼容Python 3.9-3.11。项目功能包括图像预处理、模型加载和批量推理,是一个完整的NSFW内容检测工具。
LaMDA-rlhf-pytorch - Google对话AI模型的开源预训练实现
LaMDA预训练模型自然语言处理开源实现transformer架构Github开源项目
LaMDA-rlhf-pytorch是Google LaMDA对话AI模型的开源PyTorch实现,聚焦2B参数预训练架构。项目整合了T5相对位置编码、门控GELU激活函数和GPT式解码器结构,并提供预训练脚本、Hugging Face数据集集成和Weights & Biases日志记录功能。后续将加入SentencePiece分词器、详细文档、微调脚本和推理能力。此项目为AI研究者和开发者提供了研究大规模对话模型的平台。
MASR - 基于Pytorch的开源自动语音识别框架
语音识别MASRPytorch流式识别预训练模型Github开源项目
MASR是基于Pytorch开发的自动语音识别框架,支持流式和非流式识别。框架集成了多种模型,如deepspeech2、conformer等,可用于短语音和长语音识别。MASR具备集束搜索和贪心解码功能,提供预训练模型,支持多设备部署。项目设计简洁实用,支持中英文识别,并配有完整文档。
KoBigBird - 支持长序列处理的韩语预训练模型
KoBigBird预训练模型自然语言处理长序列处理韩语Github开源项目
KoBigBird是基于BigBird架构的韩语预训练模型,支持处理长达4096个token的序列。通过稀疏注意力机制,其计算复杂度从O(n²)降至O(n)。在短序列和长序列任务评估中,KoBigBird表现优异。项目包含使用指南、预训练方法和评估结果,为韩语自然语言处理提供支持。
Pytorch-NLU - 轻量级NLP工具包 支持文本分类和序列标注
Pytorch-NLU自然语言处理文本分类序列标注预训练模型Github开源项目
Pytorch-NLU是一个轻量级自然语言处理工具包,专注于文本分类、序列标注和文本摘要任务。该工具包支持BERT、ERNIE等多种预训练模型,提供多种损失函数,具有依赖少、代码简洁、注释详细、配置灵活等特点。Pytorch-NLU包含丰富的数据集,使用方式简单,可快速应用于实际NLP项目中。
PaSST - Patchout技术优化音频变换器训练效率及性能
PaSST音频转换器Patchout预训练模型音频分类Github开源项目
PaSST项目开发的Patchout方法通过丢弃部分输入patch优化音频频谱图变换器模型训练。该技术显著降低训练时间和GPU内存消耗,同时提升模型性能。Patchout支持随机丢弃或丢弃整个时间帧、频率区间。项目提供预训练模型、推理和嵌入提取功能,以及下游任务微调框架,为音频AI研究和应用提供全面支持。
3D-VisTA - 简化3D视觉和文本对齐的新型预训练模型
3D-VisTA计算机视觉自然语言处理预训练模型多模态融合Github开源项目
3D-VisTA是一种新型预训练变换器模型,专注于3D视觉和文本对齐。该模型采用简洁统一的架构,无需复杂的任务特定设计,可轻松适应多种下游任务。通过在大规模ScanScribe数据集上预训练,3D-VisTA在视觉定位、密集字幕生成等3D视觉语言理解任务中达到了领先水平。此外,该模型还表现出优异的数据效率,即使在标注数据有限的情况下也能保持强劲性能。
LibtorchSegmentation - 高性能C++图像分割库
LibTorch图像分割神经网络C++库预训练模型Github开源项目
LibtorchSegmentation是基于LibTorch的C++图像分割库,提供高级API和多种模型架构。支持15种预训练编码器,推理速度比PyTorch CUDA快35%。该库简单易用yet功能强大,适合快速开发和部署各类图像分割应用。
hailo_model_zoo - 面向多AI任务的深度学习预训练模型集合
Hailo Model Zoo深度学习预训练模型模型优化Hailo硬件Github开源项目
Hailo模型库提供针对分类、检测和分割等AI任务的预训练深度学习模型。用户可测量模型的全精度和量化精度,并生成用于Hailo硬件加速的HEF文件。该库还包含自定义数据集重训练指南和特定用例模型。支持快速上手、性能评估及Hailo硬件部署,助力高效AI应用开发。
transformers-php - 先进的PHP机器学习库
TransformersPHP机器学习PHPONNX预训练模型Github开源项目
TransformersPHP是一个PHP机器学习库,提供与Python版Transformers相同的功能。基于Hugging Face的Transformers构建,支持众多预训练模型,适用于文本生成、摘要、翻译等任务。该库采用ONNX Runtime执行模型,性能优异。通过简洁的API,PHP开发者可以方便地在项目中集成先进的机器学习技术。
vietTTS - 开源越南语文本转语音系统
TTS语音合成HiFiGAN越南语预训练模型Github开源项目
vietTTS是一个开源的越南语文本转语音系统,集成了持续时间模型、声学模型和HiFiGAN声码器。项目提供预训练模型、数据处理工具、训练脚本和合成接口,便于研究和开发。包含详细文档,涵盖安装、数据准备和模型训练,对越南语语音合成技术发展具有参考价值。项目提供在线演示和音频样例,直观展示效果。目前项目已停止更新,新版本已迁移至LightSpeed项目,其中包含新的男声模型。
awesome-pretrained-models-for-information-retrieval - 信息检索领域预训练模型研究综述与最新进展
信息检索预训练模型神经网络深度学习搜索引擎Github开源项目
该项目汇集了信息检索领域预训练模型相关的重要论文资源。内容涵盖第一阶段检索、重排序、联合学习等核心技术,以及大语言模型应用和多模态检索等前沿主题。项目提供了全面的文献综述,有助于研究人员和从业者了解该领域的最新进展和发展方向。资源列表系统梳理了稀疏检索、密集检索等关键技术,为相关研究提供了宝贵的参考。
torchxrayvision - 胸部X光影像分析工具库
TorchXRayVision胸部X光深度学习预训练模型数据集Github开源项目
TorchXRayVision是一个开源的胸部X光影像分析工具库,为多个公开数据集提供统一接口和预处理流程。它包含多种预训练模型,可用于快速分析大型数据集、实现少样本学习,以及在多个外部数据集上评估算法性能。该库旨在简化胸部X光影像研究工作流程,提高分析效率。
GODEL-v1_1-large-seq2seq - 提升对话任务表现的大规模预训练模型
HuggingfaceGODELTransformer模型开源项目模型预训练模型多轮对话Github对话生成
GODEL是为目标导向对话设计的预训练模型,使用基于Transformer的编码器-解码器架构,能从外部文本中生成响应。该模型在需要外部信息支持的对话任务中表现出色。v1.1版本在551M条Reddit多轮对话及5M条指令和知识对话上训练,能通过少量特定对话高效微调,适合需要情感共鸣或基于知识生成安全响应的情境。
SecRoBERTa - 改善网络安全任务的预训练语言模型
Github事件信息提取开源项目网络安全威胁情报Huggingface预训练模型SecRoBERTa模型
SecRoBERTa是一款专为网络安全文本设计的预训练语言模型,提升了命名实体识别和文本分类等任务的性能。该模型通过APTnotes、Stucco-Data和CASIE等数据集进行训练,优化了词汇处理能力,从而更有效地应用于网络安全领域。
T5-Base-finetuned-for-Question-Generation - SQuAD数据集上T5模型的问答生成能力提升研究
问题生成预训练模型TransformersGithub开源项目HuggingfaceSQuADT5模型
本项目在SQuAD数据集上对T5模型进行微调,专注于问答生成功能的提升。利用PyTorch和Transformers库,该模型可基于指定的答案和上下文生成相关问题,显著提高了问答系统的自动化水平,适用于文本、视觉和音频等多模态任务。
line-distilbert-base-japanese - LINE DistilBERT模型推动日语文本智能处理
日本语HuggingfaceLINE DistilBERT预训练模型Github开源项目模型Apache License 2.0模型架构
LINE Corporation推出的DistilBERT模型专为日语文本处理而设计,基于BERT-base教师模型,在131 GB日语网络文本上完成了预训练。模型采用DistilBERT架构,有6层、768隐层、12个注意力头和66M参数。评估结果优秀,JGLUE评测中表现出色。其使用MeCab和SentencePiece进行分词和子词处理,词汇量为32768。适用于多种日语NLP任务,遵循Apache 2.0许可证。在GitHub上提供更多信息。
MOMENT-1-large - 多功能时间序列分析基础模型:预测、分类、异常检测和填补
基础模型模型GithubMOMENT预训练模型时间序列分析开源项目Huggingface机器学习
MOMENT-1-large是一款专为时间序列分析设计的多功能基础模型。它能够高效处理预测、分类、异常检测和数据填补等多种任务。该模型具有出色的零样本和少样本学习能力,可以在缺少或仅有少量任务特定样本的情况下直接使用。此外,MOMENT-1-large支持使用领域相关数据进行微调,以进一步提升性能。作为一个灵活而强大的工具,它为各类时间序列分析任务提供了有力支持。
vit-mae-large - MAE预训练的大型Vision Transformer模型
模型自编码器Github图像处理预训练模型Vision Transformer开源项目Huggingface机器学习
这是一个使用MAE方法预训练的大型Vision Transformer模型。通过随机遮挡75%的图像块进行自监督学习,该模型有效学习图像的内部表示。它可用于图像分类等下游视觉任务,采用masked autoencoder架构进行预训练。该模型由Facebook Research团队开发,基于ImageNet-1K数据集训练,适用于各种计算机视觉应用。
bigvgan_v2_22khz_80band_256x - 大规模训练的通用神经网络声码器 高性能音频生成模型
模型CUDA加速音频生成GithubBigVGAN预训练模型神经声码器Huggingface开源项目
BigVGAN是一个通用神经网络声码器,支持高达44kHz采样率和512倍上采样。其最新版本优化了推理速度,改进了模型结构,并使用大规模多样化数据集训练。该模型在语音合成基准测试中表现出色,为音频生成任务提供了高性能解决方案。
TTS - 高性能文本到语音生成库,支持多语言
TTSMozillaText-to-Speech预训练模型多语言支持Github开源项目
TTS库基于最新研究成果,提供高效的文本到语音生成技术,实现了训练便捷、速度快、质量高的最佳平衡。该库包括预训练模型和数据集质量评估工具,已被广泛应用于20多种语言的产品和研究项目。支持多说话人TTS、快速模型训练、多GPU训练,并兼容PyTorch、TensorFlow和TFLite等多种平台。
相关文章