#预训练模型

IMS Toucan语音合成多语言预训练模型PythonGithub开源项目热门

IMS Toucan是由斯图加特大学自然语言处理研究所开发的一套工具集，专注于教学、培训和使用最先进的语音合成模型。该项目基于Python和PyTorch开发，旨在为初学者提供简单、强大的学习工具。此外，IMS Toucan支持多语言和多讲者音频生成，可用于文学研究、语音克隆等多种场景。

3D-ResNets-PyTorch - 用于动作识别的 3D ResNets

3D ResNetsPyTorchAction RecognitionSpatiotemporal 3D CNNs预训练模型Github开源项目

该项目提供基于PyTorch的3D ResNet代码，适用于动作识别，支持Kinetics和Moments in Time等数据集。项目包含训练、微调和测试脚本，并提供预训练模型，支持最新的PyTorch版本和分布式训练。用户可使用详细脚本进行数据准备和模型评估，适合研究与应用。

spark-nlp - 高效自然语言处理与大规模语言模型开源库

Spark NLPApache Spark自然语言处理机器学习预训练模型Github开源项目

Spark NLP 是一个基于 Apache Spark 的开源库，提供高效且准确的自然语言处理注释，支持机器学习管道的分布式扩展。该库包含超过 36000 个预训练管道和模型，支持 200 多种语言，涵盖分词、词性标注、嵌入、命名实体识别、文本分类、情感分析、机器翻译等任务。兼容 BERT、RoBERTa 等主流变压器模型，支持 Python、R、Java、Scala 和 Kotlin。

mindnlp - 开源自然语言处理与大语言模型框架

MindNLP自然语言处理预训练模型大语言模型MindSporeGithub开源项目

MindNLP是一个基于MindSpore的开源自然语言处理库，支持语言模型、机器翻译、问答系统、情感分析、序列标注和摘要生成等多种任务。该项目集成了BERT、Roberta、GPT2和T5等多种预训练模型，通过类似Huggingface的API简化了使用流程。用户可通过pypi或源代码安装该库，并支持包括Llama、GLM和RWKV在内的大型语言模型的预训练、微调和推理，非常适合研究者和开发人员构建和训练模型。

ru-dalle - 文本生成图像工具

ruDALL-E生成图像预训练模型超分辨率图像提示Github开源项目

ru-dalle是一个开源的图像生成工具，能够将文本描述转换成详细的图像。采用预训练模型，支持多种风格，包括Malevich、Emojich等，适用于多种应用场景，如艺术设计、内容创作等。该项目提供易于使用的API，允许用户快速生成高分辨率图像，并支持图片微调和超分辨率处理，使图像更加精细和真实。

gpt-neo - 使用 mesh-tensorflow 库的模型并行 GPT-2 和 GPT-3 样式模型的实现

GPT-Neo模型训练预训练模型TPU支持GPT-3Github开源项目

GPT-Neo项目在mesh-tensorflow库的支持下，开发出了类似于GPT-3的高级模型与数据并行技术。项目支持在TPU及GPU上进行高效训练与推理，并集成了局部注意力、线性注意力和多专家系统等先进技术，能有效处理大规模参数模型。GPT-Neo还提供了多项模型评估功能，专注于语言和科学推理，拓宽了其在自然语言处理应用中的领域。

deepvoice3_pytorch - 基于卷积网络的文本到语音合成技术

DeepVoice3文本转语音PyTorch多说话者模型预训练模型Github开源项目

DeepVoice3_pytorch是基于PyTorch的文本到语音深度学习平台，支持多语种和多数据集，包括英语、日语和韩语，适合多个说话者或单个说话者。项目提供预训练模型、音频样本、在线演示及详尽的训练指南，旨在简化用户的使用过程，并能灵活定制个性化的语音合成应用。

wavegrad - 由Google Brain设计的高效神经声码器

WaveGrad神经声码器高质量合成多GPU训练预训练模型Github开源项目

WaveGrad是由Google Brain团队设计的神经声码器，专业于将对数缩放的Mel频谱图转换为波形。此项目提供稳定训练、合成、混合精度训练以及多GPU支持，且支持命令行和API推理接口，配备预训练模型。易于安装，支持通过pip和GitHub进行安装。其多GPU训练和混合精度训练提升了处理效率，适合需进行高效音频处理的开发者。

Matcha-TTS - 具有条件流匹配的快速 TTS 架构

Matcha-TTS非自回归神经TTS音频合成试用预训练模型Github开源项目

Matcha-TTS采用条件流匹配技术，优化语音合成流程，提高效率同时保证音质自然和内存使用最优化。官方演示页展示了其快速、自然的语音合成能力，详细信息请参阅ICASSP 2024论文。您还可以直接在HuggingFace平台上尝试该技术。

voicefixer - 语音恢复解决方案，高效修复各级别的语音退化

VoiceFixer语音修复神经声码器语音处理预训练模型Github开源项目

Voicefixer，一款基于神经声码器的预训练工具，可处理多种语音退化问题，包括噪音、混响、低分辨率及削波效应。支持44.1kHz的通用神经声码器，适用于各种应用场景，如命令行、桌面客户端及Python脚本。

diffwave - 神经网络驱动的语音及波形快速合成技术

DiffWave语音合成神经声码器波形合成器预训练模型Github开源项目

DiffWave是一种基于迭代精细化的神经语音合成器，能从高斯噪声生成语音。支持多GPU和混合精度训练，提供命令行和程序化推理接口，并配有模型和音频样本。

StyleSpeech - 多说话人自适应文本转语音生成

Meta-StyleSpeech文本到语音自适应预训练模型音质Github开源项目

Meta-StyleSpeech项目结合最新的多说话者适应性文本到语音合成技术，通过样本少量的语音输入即可生成高质量合成语音。该项目运用风格自适应层归一化技术，高效适配不同说话者的声音特征。提供预训练模型和在线演示供实际应用测试。

so-vits-svc-fork - 高效实时声音转换与改进界面

so-vits-svc-fork语音转换实时转换开源预训练模型Github开源项目

so-vits-svc-fork项目基于so-vits-svc分支进行改进，支持实时声音转换并优化了用户界面。它不仅兼容旧版模型，同时通过高效的训练流程和简捷的pip安装过程提供了良好的用户体验。项目集成了QuickVC和ContentVec技术，显著提升音调估计准确性，并支持通过图形界面或命令行实时进行语音转换，同时支持自动下载预训练模型。

open_clip - 探索前沿图像与语言对比预训练技术

OpenCLIP预训练模型对比学习图像识别零样本学习Github开源项目

OpenCLIP是一个先进的开源深度学习项目，专注于OpenAI的CLIP模型的实现和优化。该项目在多样化的数据源和不同的计算预算下成功训练出多个高效能模型，涵盖图像和文本嵌入、模型微调及新模型开发等多个领域。通过增强图像与语言的联合理解能力，OpenCLIP显著推动了人工智能技术的发展，拓宽了其应用领域。

melgan - PyTorch实现的语音合成技术

MelGANPyTorch人工智能语音合成预训练模型音频处理Github开源项目

MelGAN是一个在PyTorch上实现的声码器，用于转换NVIDIA tacotron2的输出成原始音频。项目提供了基于LJSpeech-1.1数据集的预训练模型，用户可通过PyTorch Hub访问和试听。适合音频合成领域的研究与开发。

FCH-TTS - 并行语音合成模型

ParallelTTS语音合成预训练模型声码器合成样例Github开源项目

FCH-TTS采用先进的并行语音合成技术，快速生成高质量语音。支持多语种及多种声音风格，满足多样化应用需求。项目持续迭代，引入诸如SoftDTW损失函数等新功能和优化，同时集成顶尖的声码器技术。FCH-TTS不仅提供预训练模型和丰富的合成示例，还允许用户自定义训练和合成，适用于教育、娱乐及商业多个领域。

facenet - 基于TensorFlow的高精度面部识别开源项目

TensorFlow人脸识别FaceNetInception ResNet v1预训练模型Github开源项目

FaceNet，一个基于TensorFlow的开源面部识别项目，采用最新的深度学习技术和数据集（如CASIA-WebFace和VGGFace2）开发。其准确率可达99.65%，并使用MTCNN进行高效的面部对齐。适合需求高级面部识别技术的开发者和科研人员。

UER-py - 自然语言处理的开源预训练工具包

UER-py预训练模型NLP任务BERT模型微调Github开源项目

UER-py是一个为自然语言处理任务设计的预训练和微调工具包，支持多种预训练模型以优化下游任务表现。项目强调模块化设计，并提供可扩展接口，支持单GPU及多GPU配置。

transfer-learning-conv-ai - 使用迁移学习构建最先进的对话式 AI

Conversational AITransfer LearningHuggingFaceOpenAI GPT预训练模型Github开源项目

transfer-learning-conv-ai项目提供了一套完整的代码库，使用OpenAI GPT及GPT-2模型通过迁移学习技术培训对话型AI代理。用户可以在1小时内完成模型训练，还可以直接使用预训练模型。本代码库支持在单GPU或多GPU下训练，并兼容Docker环境。适合参与NeurIPS 2018对话竞赛。

CDial-GPT - 大规模中文短文本对话数据集及中文预训练对话模型

CDial-GPT中文对话数据集预训练模型LCCC对话生成Github开源项目

CDial-GPT 借助丰富的中文对话数据集和创新的机器学习技术为语言模型预训练提供解决方案。平台提供多样化的预训练模型，便于微调和实际应用，同时支持通过 HuggingFace 访问，适用于多场景如客服自动化和聊天机器人，推进中文自然语言处理的发展。

scGPT - AI单细胞多组学基础模型

scGPT单细胞多组学基因表达调控网络预训练模型在线应用Github开源项目

scGPT是一个基于AI的单细胞多组学研究基础模型，提供丰富的预训练模型和在线应用程序。该平台支持基因调控网络分析、细胞类型注释及多组学集成，适用于处理大规模细胞数据集，如全人类及特定器官细胞。此外，其零样本学习和快速参考映射功能，加上不断更新的训练模型，保障了其在多种研究任务中的应用前沿性和广泛适用性。

awesome-recommend-system-pretraining-papers - 推荐系统预训练及大型语言模型论文资源

Recommend System预训练模型大语言模型数据集用户表示预训练Github开源项目

此资源汇总了预训练推荐系统和大型语言模型相关的论文，涵盖用户表示预训练、序列推荐、图预训练等子领域，并提供丰富的数据集和代码链接。研究人员可以通过该列表了解如何利用预训练和大型语言模型提升推荐系统性能，获得最新研究成果和实用工具。

ltp - 中文自然语言处理平台，多任务和高效推理支持

LTP中文自然语言处理分词深度学习模型预训练模型Github开源项目

LTP（Language Technology Platform）提供中文分词、词性标注、句法分析和命名实体识别等自然语言处理功能。通过多任务框架和共享预训练模型进行优化，显著提升性能。LTP支持快速的感知机算法推理和高精度的深度学习分析，并在Huggingface Hub上提供预训练模型下载。最新版LTP v4.2.0优化了结构，并支持用户自定义模型训练和上传，提高了灵活性和实用性。

ktrain - 轻量级的深度学习和AI工具包

ktrain机器学习深度学习TensorFlow Keras预训练模型Github开源项目

ktrain 是一个基于 TensorFlow Keras 的轻量级深度学习库封装，帮助用户快速构建、训练和部署各种机器学习模型。适用于文本、视觉、图表和表格数据，支持文本分类、图像识别、节点分类和因果推断等任务。无论是初学者还是有经验的研究人员，都能借助其简单的 API 和多种学习率策略，快速实现高效模型部署，支持导出到 ONNX 和 TensorFlow Lite。

DNABERT - DNABERT：用于基因组DNA语言处理的双向编码器模型

DNABERT基因组预训练模型GPUBERTGithub开源项目

DNABERT提供完整的源码、使用示例、预训练和微调模型，适用于各类基因组DNA语言处理任务。该项目利用Huggingface的扩展工具，增添了多任务支持和高效的可视化功能。最新版DNABERT-2不仅提升了多物种基因组的处理能力，还发布了全面的Genome Understanding Evaluation (GUE)基准测试，涵盖28个数据集。

catalyst - 高效跨平台C#自然语言处理库，支持预训练模型与灵活实体识别

实体识别净标记Github开源项目CatalystNLP库预训练模型

Catalyst 是一个C#自然语言处理库，提供预训练模型、实体识别和高效的二进制序列化支持。兼容.NET Standard 2.0 并跨平台运行，支持Windows、Linux和macOS。具备精准的标记化处理和语言检测功能。其特点包括命名实体识别、词性标注、语言检测、词形还原和FastText嵌入训练。通过简单的NuGet包安装和流式模型存储，支持多线程并行文本处理，适合大规模文本分析需求。

GPT2-Chinese - GPT2-Chinese：支持多种中文Token化和大规模语料训练

GPT2-Chinese预训练模型中文语言模型BERT分词器HuggingfaceGithub开源项目

GPT2-Chinese项目提供了适用于中文的GPT2训练代码，支持BERT和BPE Tokenizer，能够生成诗词、新闻、小说等内容，适用于大规模语料训练。该项目基于Pytorch实现，支持最新的预训练模型，如通用中文模型和古诗词模型。详细的模型信息可以在Huggingface Model Hub中找到。用户可以自行训练和生成文本，同时支持FP16和梯度累积。

mt-dnn - 多任务深度神经网络在自然语言理解中的最新应用

MT-DNN自然语言理解多任务深度神经网络PyTorch预训练模型Github开源项目

该项目实现了基于PyTorch的多任务深度神经网络（MT-DNN），主要用于自然语言理解。最新版本添加了语言模型预训练和微调的对抗性训练功能。用户可以使用pip安装或通过Docker快速启动，项目提供详细的训练和微调步骤，支持序列标注和问答任务。此外，项目包含模型嵌入提取和训练加速功能。目前由于政策变化，公共存储解决方案暂不提供。

Fast-SRGAN - 基于Pixel Shuffle的SR-GAN实时超分辨率视频放大

Fast-SRGAN超分辨率像素洗牌预训练模型Python 3.10Github开源项目

Fast-SRGAN是一个开源项目，基于SR-GAN架构和Pixel Shuffle技术，旨在实现实时超分辨率视频放大。实验证明，在MacBook M1 Pro GPU上可以达到720p视频的30fps处理速度。项目提供预训练模型并支持自定义训练参数，用户可通过配置文件或命令行参数进行设置并在Tensorboard上监控训练进度。欢迎社区贡献意见和改进。

Transformers.jl - Transformer模型的Julia实现，兼容Flux.jl

Transformers.jlJuliaBertFlux.jl预训练模型Github开源项目

Transformers.jl提供Transformer模型在Julia中的实现，兼容Flux.jl库。使用预训练的Bert模型进行文本处理，项目包含安装步骤和使用实例。当前版本与0.1.x版本有显著区别，建议更新或继续使用旧版本。更多信息和示例请参阅文档或在GitHub提交Issue。

malaya - 马来西亚语自然语言处理库

MalayaPyTorch自然语言处理Python预训练模型Github开源项目

Malaya是一个由PyTorch驱动的功能强大的马来西亚语自然语言处理库，提供预训练模型和详细文档。支持Python 3.6及以上版本，并建议通过virtualenv进行开发。用户可以方便地通过PyPI安装，并选择合适的PyTorch版本。项目得到了KeyReply、Nvidia和Tensorflow Research Cloud的支持，提供充足的计算资源。欢迎各类形式的贡献，不仅限于代码。

nucleotide-transformer - Transformer驱动的基因组语言及单核苷酸序列分割模型

Nucleotide TransformersSegmentNTgenomics预训练模型DNA序列解析Github开源项目

nucleotide-transformer项目提供了九种预训练基因组语言模型和两种SegmentNT分割模型。基于Transformer的基因组模型综合了3,200个人类基因组和850个不同物种的基因组数据，能够高精度预测分子表型。Agro NT模型专用于农作物基因组，在基因调控和表达预测上表现优异。这些模型可以实现对DNA序列基因组元素的单核苷酸分辨率分割。

Awesome-Parameter-Efficient-Transfer-Learning - 参数高效迁移学习的全面资源汇总

Awesome-Parameter-Efficient-Transfer-LearningGitHub预训练模型参数高效微调视觉模型Github开源项目

该项目提供了关于参数高效迁移学习的全面资源，包含多种调优方法和最新研究。研究人员和工程师可以参考这些资源，以提高预训练视觉模型的微调效率，并了解最新的项目更新，如视觉PEFT库和基准测试。

OFA - 多任务优化的跨模态序列到序列预训练模型

OFA预训练模型多模态图像字幕文本生成Github开源项目

OFA是一个支持中文和英文的序列到序列预训练模型，整合了跨模态、视觉和语言任务，支持微调和提示调优。其应用包括图像描述、视觉问答、视觉定位、文本生成和图像分类等。项目提供了详细的预训练和微调步骤、检查点和代码示例，以及在Hugging Face和ModelScope上的在线演示和Colab笔记本下载。欢迎社区参与改进和开发。

TTS - 高性能文本到语音生成库，支持多语言

TTSMozillaText-to-Speech预训练模型多语言支持Github开源项目

TTS库基于最新研究成果，提供高效的文本到语音生成技术，实现了训练便捷、速度快、质量高的最佳平衡。该库包括预训练模型和数据集质量评估工具，已被广泛应用于20多种语言的产品和研究项目。支持多说话人TTS、快速模型训练、多GPU训练，并兼容PyTorch、TensorFlow和TFLite等多种平台。

CycleGAN: 无配对图像到图像转换的革命性技术

2024年08月29日

TTS技术:让文字发声的魔法

2024年08月30日

3D-ResNets-PyTorch: 深度学习在视频动作识别中的应用

2024年08月30日

GPT-Neo:开源大规模语言模型的突破性进展

2024年08月30日

So-vits-svc-fork: 实时语音转换的开源解决方案

2024年08月30日

OpenCLIP: 开源实现的CLIP模型

2024年08月30日

FaceNet: 深度学习人脸识别的革命性技术

2024年08月30日

基于迁移学习的对话AI系统：构建先进的对话智能

2024年08月30日

Pyannote：揭秘声音的DNA，精准分辨出各个发言者的声音

2024年08月03日

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com