#预训练模型

CRM - 推荐用于快速生成3D纹理网格的前馈模型

CRM3D模型卷积重建模型Huggingface Demo预训练模型Github开源项目

CRM是一种前馈模型，能够在短时间内生成高质量的3D纹理网格。它适用于Python 3.9版本，并依赖多个软件包和库的安装。用户可以通过可视化工具Gradio或命令行进行推理操作。项目目前提供预训练模型和推理代码，未来还计划优化推理代码以适应低内存GPU需求。相较于在线Demo的顶点颜色方法，官方实现使用了UV纹理，生成的纹理质量更高但也需要稍长的时间。

InvoiceNet - 深度神经网络，从发票文档中提取智能信息

InvoiceNet深度神经网络信息提取发票数据集预训练模型Github开源项目

InvoiceNet是一个通过深度神经网络从PDF、JPG、PNG格式的发票中提取智能信息的工具。它提供一个便捷的用户界面供用户查看和提取发票信息，并支持自定义模型的训练。用户可以根据需求添加或删除发票字段，并将提取的信息一键保存到系统中。详细的安装指南支持Ubuntu和Windows，并包含数据准备、字段添加以及使用GUI和CLI的说明。

sentence-transformers - 多语言文本和图像嵌入向量生成框架

Sentence Transformers自然语言处理深度学习向量表示预训练模型Github开源项目

sentence-transformers是一个基于transformer网络的框架，用于生成句子、段落和图像的向量表示。该项目提供了多语言预训练模型，支持自定义训练，适用于语义搜索、相似度计算、聚类等场景。这个开源工具在自然语言处理和计算机视觉任务中表现出色，为研究人员和开发者提供了便捷的嵌入向量生成方案。

3D-Speaker - 开源多模态说话人识别与验证工具包

说话人验证开源工具包3D-Speaker预训练模型ModelScopeGithub开源项目

3D-Speaker是一个开源的单模态和多模态说话人验证、识别和分离工具包。它提供ERes2Net、CAM++等预训练模型，适用于多种说话人相关任务。该项目发布的大规模语音数据集3D-Speaker有助于语音表示解耦研究。3D-Speaker支持有监督和自监督训练，以及语言识别等多种实验设置，为研究人员提供全面的说话人技术解决方案。

coqui-ai-TTS - 先进的多语言文本转语音库支持1100多种语言

Coqui TTS文本转语音深度学习预训练模型多语言支持Github开源项目

coqui-ai-TTS是一个先进的开源文本转语音库，支持超过1100种语言。该库提供多种深度学习模型，如Tacotron2、VITS和YourTTS，用于生成高质量语音。它还包含训练新模型、微调现有模型的工具，支持多说话人TTS，并提供数据集分析功能。

vampnet - 基于音频编解码器的先进音乐生成模型

VampNet生成音乐模型预训练模型Fine-tuningGradio界面Github开源项目

VampNet是一个开源的音乐生成项目，基于音频编解码器技术开发。该项目提供了训练音乐生成模型的方法，包括预训练模型和交互式界面。VampNet支持模型训练、微调和多GPU训练，适用于音乐创作和研究。项目文档详细介绍了环境配置、模型使用和训练过程，便于用户快速上手和探索音乐生成技术。

DeepSeek-V2 - 兼顾效率与经济性的大规模混合专家语言模型

DeepSeek-V2混合专家模型大语言模型预训练模型自然语言处理Github开源项目

DeepSeek-V2是一款基于专家混合(MoE)架构的大规模语言模型,总参数量达2360亿,每个token激活210亿参数。相较于DeepSeek 67B,该模型在提升性能的同时,显著降低了训练成本和推理资源消耗。DeepSeek-V2在多项标准基准测试和开放式生成任务中表现优异,展现了其在多领域的应用潜力。

XPhoneBERT - 多语言音素表示模型助力TTS性能提升

XPhoneBERT语音合成多语言模型音素表示预训练模型Github开源项目

XPhoneBERT是一种创新的多语言音素表示预训练模型，专为文本转语音(TTS)系统设计。基于BERT-base架构，该模型利用RoBERTa方法对近100种语言的3.3亿音素级句子进行训练。研究显示，将XPhoneBERT用作输入音素编码器能够显著增强神经TTS模型的自然度和韵律表现，同时在训练数据有限的情况下也能生成高质量语音。这一模型支持广泛的语言，并可通过transformers库便捷集成。

Depth-Anything-V2 - 单目深度估计新突破，高精度与快速推理并重

Depth Anything V2深度估计计算机视觉预训练模型开源项目Github

Depth-Anything-V2是单目深度估计领域的新进展。该模型在细节表现和鲁棒性上显著优于V1版本，并在推理速度、参数量和深度精度方面超越了基于SD的模型。项目提供四种预训练模型，适用于相对和度量深度估计，可处理图像和视频。此外，发布的DA-2K基准为深度估计研究设立了新标准。

ProphetNet - 微软自然语言生成研究项目概述

自然语言生成ProphetNetGLGE_baselines微软研究院预训练模型Github开源项目

ProphetNet是微软亚洲研究院NLC团队开发的自然语言生成研究项目。它包含多个子项目，涉及预训练模型、基准测试、生成器-排序器联合学习、段落去噪、自回归扩散模型等技术。该项目为自然语言生成领域提供了丰富的研究资源和实现工具。

caduceus - 双向等变长程DNA序列建模的创新方法

CaduceusDNA建模双向等变预训练模型基因组基准Github开源项目

Caduceus是一种双向等变长程DNA序列建模技术，可处理长达131k的DNA序列。其反向互补等变架构无需数据增强即可高效建模。项目提供预训练模型和实验复现指南，包括人类基因组预训练和多项下游任务评估，展示了在基因组学领域的应用潜力。该项目开源了模型代码和预训练权重，提供了详细的使用说明和实验复现步骤，涵盖了基因组基准测试、核苷酸转换器数据集和单核苷酸多态性变异效应预测等多个评估方法。

CLAP - 音频与文本的对比学习预训练模型

CLAP音频处理机器学习预训练模型多模态学习Github开源项目

CLAP是一个音频-文本对比学习预训练模型，可提取音频和文本的潜在表示。它基于CLIP架构设计，通过大规模预训练学习音频与文本的对应关系。该模型适用于音频分类、检索等多种下游任务。项目提供开源预训练模型、代码和PyPI库，支持从音频文件或数据中直接提取特征。

FunASR - 综合性开源语音识别与处理工具集

FunASR语音识别预训练模型模型部署多任务Github开源项目

FunASR是一个全面的开源语音处理工具集，融合了学术研究和工业应用。它不仅支持语音识别模型的训练和微调，还提供了语音活动检测、标点恢复等多种功能。该项目提供大量预训练模型，便于快速构建高效准确的语音识别服务。FunASR以其广泛的功能、高性能和易部署特性，为语音识别技术的研究和应用提供了强大支持。

Youku-mPLUG - 千万级中文视频语言数据集及多模态基准

Youku-mPLUG视频语言数据集预训练模型多模态基准测试Github开源项目

Youku-mPLUG是一个包含1000万条中文视频-语言数据的大规模数据集，源自优酷平台。数据涵盖20个超级类别和45个类别，经严格筛选确保质量。项目提供三个多模态视频基准数据集，用于评估模型在分类、检索和描述任务上的表现。研究团队基于GPT-3和BloomZ-7B开发的mPLUG-Video模型展现了出色的零样本学习能力。

segmentation_models.pytorch - 基于PyTorch的神经网络图像分割库

图像分割PyTorch神经网络预训练模型编码器Github开源项目

segmentation_models.pytorch 是一个基于 PyTorch 的图像分割库,提供9种分割模型架构和124种编码器。该库 API 简洁,支持预训练权重,并包含常用评估指标和损失函数。它适用于研究和实际应用中的各种图像分割任务,是图像分割领域的实用工具。

assets - 视觉资产和AI模型资源库

Ultralytics计算机视觉预训练模型数据集YOLOGithub开源项目

Ultralytics Assets 仓库集成了视觉资产、预训练模型和数据集，为 Ultralytics YOLO 生态系统提供支持。该仓库涵盖对象检测、实例分割、图像分类等计算机视觉任务，为研究人员和开发者提供便捷的资源访问，加速机器学习项目的开发和优化。此仓库提供了完整的资源套件，包括视觉素材、预训练模型和注释数据集，适用于多种计算机视觉任务。它简化了资源获取过程，使开发者能够专注于项目开发而非资源收集，从而提高工作效率。

nlp_paper_study - NLP论文学习和实战资源库

NLP论文研究知识图谱预训练模型信息抽取Github开源项目

nlp_paper_study项目是一个综合性NLP学习资源库，涵盖论文阅读方法、经典会议论文解读、理论学习和实战经验。内容包括transformer、预训练模型、信息抽取、知识图谱等多个NLP主题，从基础到前沿。项目还提供竞赛经验和实用工具介绍，帮助研究者和工程师系统掌握NLP知识，提升科研与应用能力。

lerobot - 实用机器学习库助力实际机器人开发

LeRobot机器人强化学习模拟环境预训练模型Github开源项目

LeRobot是一个基于PyTorch的机器人应用开发库,提供模型、数据集和工具。它侧重模仿学习和强化学习,包含预训练模型、人类示范数据集和仿真环境,降低机器人技术门槛。该库支持ALOHA、PushT和XArm等多种环境和策略,未来将扩展实际机器人支持。LeRobot旨在促进数据集和预训练模型的共享,推动机器人技术发展。

octo - 基于transformer的通用机器人控制策略

Octo机器人政策AI模型预训练模型微调Github开源项目

Octo是一个基于transformer的扩散策略模型，通过80万条多样化机器人轨迹数据训练而成。该模型支持多个RGB相机输入，可控制各种机器人手臂，并接受语言命令或目标图像指令。其模块化注意力结构使其能高效迁移至新的传感器输入、动作空间和形态。项目提供预训练模型、微调脚本和评估示例，便于研究人员进行深入开发和应用。

RNA-FM - 高精度RNA结构和功能预测的解释性基础模型

RNA-FMRNA语言模型RNA结构预测RNA功能预测预训练模型Github开源项目

RNA-FM是一个基于未注释数据训练的RNA基础模型，在RNA结构预测和功能相关任务中表现出色。项目提供预训练模型和代码，支持RNA嵌入生成和二级结构预测。最新更新包含RNA家族聚类和类型分类教程，以及针对mRNA编码序列的mRNA-FM模型。RNA-FM为RNA研究提供了有力工具，有助于提高RNA结构和功能预测的准确性。

single-cell-transformer-papers - Transformer模型在单细胞组学分析中的应用概览

Transformers单细胞组学预训练模型基因表达细胞注释Github开源项目

本项目汇总了单细胞组学数据分析中的Transformer模型,包括论文、代码、数据模态等关键信息。通过全面概述单细胞Transformer模型,展示了该领域的最新进展和发展趋势。项目内容持续更新,为研究人员提供了宝贵的参考资源。项目内容涵盖了各Transformer模型的核心要素,如数据模态、预训练数据集、模型架构和任务类型等。这种系统性的整理使研究人员能够快速了解和比较不同模型的特点,为单细胞组学研究提供了有力支持。

Diffusion_models_from_scratch - 完整实现扩散模型的开源框架与教程

Diffusion模型图像生成ImageNetU-Net预训练模型Github开源项目

该项目提供了一个完整的扩散模型实现框架，包含DDPM、DDIM和无分类器引导模型。项目特点包括：基于ImageNet 64x64数据集的预训练模型、详细的环境配置和数据准备指南、全面的训练和推理脚本，以及多种模型架构和优化策略。开发者可以利用此框架轻松训练自定义扩散模型或使用预训练模型生成图像。

uni2ts - 时间序列预测Transformer模型的统一训练框架

Uni2TS时间序列预测Transformer预训练模型PyTorchGithub开源项目

Uni2TS是一个基于PyTorch的开源库，专门用于时间序列Transformer的研究和应用。它提供了统一的大规模预训练解决方案，支持微调、推理和评估。该库集成了零样本预测、自定义数据集处理和全面评估功能，并提供简化的命令行界面。Uni2TS旨在推动时间序列预测领域的进展，适用于研究和实际应用场景。

MetaCLIP - CLIP模型数据处理优化工具

MetaCLIPCLIP图像文本对预训练模型数据清洗Github开源项目

MetaCLIP是一个改进CLIP模型数据处理的开源项目。它提出了一种新的数据筛选算法,无需依赖现有模型即可从头整理数据。该项目强调数据质量,提供了可扩展到CommonCrawl全数据集的方法。MetaCLIP公开训练数据分布,提高了透明度,并为CLIP模型提供标准化的实验设置,便于控制实验和公平比较。

mae_st - 掩码自编码器在时空学习和视频重建中的应用

Masked Autoencoders时空学习PyTorch实现视频处理预训练模型Github开源项目

mae_st项目是一个基于PyTorch实现的掩码自编码器时空学习框架。该项目提供预训练模型、微调和测试代码，支持在Kinetics数据集上进行训练和评估。项目特色包括交互式可视化演示，展示不同掩码率下的MAE输出效果。研究人员可借助此工具开展视频理解和重建相关研究，深入探索时空学习领域。

prov-gigapath - 数字病理学全切片基础模型

Prov-GigaPath数字病理学深度学习预训练模型医学图像分析Github开源项目

Prov-GigaPath是一个基于真实世界数据开发的数字病理学全切片基础模型。它包含切片编码器和幻灯片编码器,支持切片级和幻灯片级任务。该模型已在Nature发表,并开源了预训练模型、代码和演示笔记本。研究人员可利用它探索数字病理学幻灯片数据的预训练和编码。该项目仅供研究使用,不适用于临床诊断。

VisionLLaMA - 基于LLaMA的统一视觉模型，为图像生成和理解设立新基准

VisionLLaMA计算机视觉图像生成图像理解预训练模型Github开源项目

VisionLLaMA是一个基于LLaMA架构的统一视觉Transformer模型，专为处理2D图像而设计。该模型提供平面和金字塔两种形式，适用于广泛的视觉任务，包括图像感知和生成。通过各种预训练范式的广泛评估，VisionLLaMA在多项图像生成和理解任务中展现出卓越性能，超越了现有最先进的视觉Transformer模型，为计算机视觉领域提供了新的基准。

plip - 病理学视觉语言基础模型革新AI分析

PLIP病理学AI预训练模型视觉语言模型Github开源项目

PLIP是首个针对病理AI的视觉和语言基础模型，通过大规模预训练实现病理图像和文本描述的特征提取。作为CLIP模型的改进版，PLIP支持图像文本编码和相似度计算，可通过多种API方式使用。该模型为病理图像分析提供新的研究工具，助力医疗AI在病理诊断和研究中的应用。

Score-Entropy-Discrete-Diffusion - 基于数据分布比率估计的离散扩散模型

离散扩散模型PyTorch实现预训练模型采样策略训练代码Github开源项目

Score-Entropy-Discrete-Diffusion 是一个基于 PyTorch 实现的离散扩散模型项目。它通过估计数据分布比率来生成文本，包含噪声调度、前向扩散过程、采样策略和模型架构等模块。该项目支持使用预训练模型，提供条件和非条件文本生成功能，并为离散数据生成研究提供了新思路。项目结构模块化，便于进一步研究和应用开发。

CVinW_Readings - 聚焦计算机视觉在野外(Computer Vision in the Wild)这一新兴研究领域

计算机视觉迁移学习预训练模型多模态图像分类Github开源项目

CVinW_Readings项目聚焦计算机视觉在野外(Computer Vision in the Wild)这一新兴研究领域。项目提供CVinW简介并维护相关论文集。CVinW致力于开发易于适应广泛视觉任务的可转移基础模型，特点是广泛的任务转移场景和低转移成本。内容涵盖任务级转移、高效模型适应和域外泛化等研究方向的最新进展。

YOLO-World - 下一代实时开放词汇目标检测模型

YOLO-World目标检测开放词汇预训练模型零样本学习Github开源项目

YOLO-World是一款创新的实时开放词汇目标检测模型。经过大规模数据集预训练,它展现出卓越的开放词汇检测和定位能力。采用'先提示后检测'范式,YOLO-World通过重参数化技术实现高效的自定义词汇推理。该模型支持零样本目标检测、分割等多种任务,并开源了在线演示、预训练权重和微调代码,为计算机视觉领域提供了实用的研究与应用工具。

tokenizer - Go语言实现的自然语言处理分词库

TokenizerGo语言NLP预训练模型分词Github开源项目

Tokenizer是一个纯Go语言实现的自然语言处理分词库，支持Word level、Wordpiece和BPE等多种分词模型。该项目可用于训练新模型或微调现有模型，并兼容HuggingFace预训练模型。Tokenizer为Go开发者提供了构建NLP应用所需的工具，助力高效生产级软件开发。

Retrieval-Augmented-Visual-Question-Answering - 细粒度后期交互多模态检索视觉问答系统

FLMR视觉问答多模态检索预训练模型基准测试Github开源项目

这个项目开发了一个基于细粒度后期交互多模态检索的视觉问答系统。系统在OK-VQA等多个基准数据集上实现了先进的检索和问答性能。它采用模块化架构,包含预训练映射网络、FLMR检索器和BLIP2读取器等关键组件。项目提供完整的代码库,支持训练和评估,并发布了预训练模型和处理后的数据集,便于研究人员进行后续研究。

EnergeticAI - Node.js应用中的高效开源AI解决方案

AI工具EnergeticAI预训练模型嵌入分类器性能优化

EnergeticAI是一款针对Node.js应用优化的TensorFlow.js库，专注于serverless函数性能。它具有快速冷启动、模块体积小和预训练模型等优势。库中包含英文嵌入、分类器等多种预训练模型，计划中还将提供语义搜索功能。相比TensorFlow.js，EnergeticAI的冷启动速度提升最高可达67倍。该库安装简便，使用Apache 2.0许可证，适用于构建推荐系统、文本分类等多种商业AI应用场景。

polish-nlp-resources - 波兰语自然语言处理资源与预训练模型库

NLPPolish预训练模型词嵌入语言模型Github开源项目

该项目汇集了多种波兰语自然语言处理资源,包括词嵌入、语言模型和机器翻译模型。提供Word2Vec、FastText、GloVe等词向量,以及ELMo、RoBERTa等上下文嵌入模型。还包含压缩词向量和Wikipedia2Vec等特色资源。涵盖从基础词向量到预训练模型的多个层面,为波兰语NLP研究和应用提供支持。

TTS - 高性能文本到语音生成库，支持多语言

TTSMozillaText-to-Speech预训练模型多语言支持Github开源项目

TTS库基于最新研究成果，提供高效的文本到语音生成技术，实现了训练便捷、速度快、质量高的最佳平衡。该库包括预训练模型和数据集质量评估工具，已被广泛应用于20多种语言的产品和研究项目。支持多说话人TTS、快速模型训练、多GPU训练，并兼容PyTorch、TensorFlow和TFLite等多种平台。

相关文章

Article Cover

CycleGAN: 无配对图像到图像转换的革命性技术

Article Cover

TTS技术:让文字发声的魔法

Article Cover

3D-ResNets-PyTorch: 深度学习在视频动作识别中的应用

Article Cover

GPT-Neo:开源大规模语言模型的突破性进展

Article Cover

So-vits-svc-fork: 实时语音转换的开源解决方案

Article Cover

OpenCLIP: 开源实现的CLIP模型

Article Cover

FaceNet: 深度学习人脸识别的革命性技术

Article Cover

基于迁移学习的对话AI系统：构建先进的对话智能

Article Cover

Pyannote：揭秘声音的DNA，精准分辨出各个发言者的声音

2024年08月03日

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com

@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号