#预训练模型

awesome-recommend-system-pretraining-papers学习资料汇总 - 推荐系统预训练模型论文列表

18 天前

本文汇总了awesome-recommend-system-pretraining-papers项目的主要内容和学习资源,包括论文列表、数据集、代码实现等,为推荐系统预训练模型研究提供全面的参考。

Recommend System 预训练模型大语言模型数据集用户表示预训练 Github 开源项目

18 天前

FCH-TTS学习资料汇总 - 快速高质量并行语音合成模型

18 天前

FCH-TTS是一个快速、可控、高质量的非自回归文本到语音合成模型,支持英语、中文、日语等多种语言。本文汇总了FCH-TTS的相关学习资料,帮助读者快速了解和使用该项目。

ParallelTTS 语音合成预训练模型声码器合成样例 Github 开源项目

18 天前

WaveGrad入门学习资料 - 基于梯度估计的高质量神经网络声码器

18 天前

WaveGrad是一种快速、高质量的神经网络声码器,通过估计数据密度的梯度来生成波形。本文汇总了WaveGrad项目的相关学习资料,帮助读者快速入门和深入了解这一创新性的语音合成模型。

WaveGrad 神经声码器高质量合成多GPU训练预训练模型 Github 开源项目

18 天前

MelGAN入门学习资料 - 基于GAN的声码器模型

18 天前

MelGAN是一种基于生成对抗网络的声码器模型,可以将梅尔频谱图转换为原始音频波形。本文汇总了MelGAN的相关学习资源,包括论文、代码实现、教程等,帮助读者快速上手这一强大的语音合成模型。

MelGAN PyTorch 人工智能语音合成预训练模型音频处理 Github 开源项目

18 天前

VoiceFixer 入门学习资料 - 通用语音修复工具

18 天前

VoiceFixer 是一个通用的语音修复工具,可以处理多种语音退化问题。本文汇总了 VoiceFixer 的相关学习资料,帮助读者快速入门和使用该工具。

VoiceFixer 语音修复神经声码器语音处理预训练模型 Github 开源项目

18 天前

MindNLP入门学习资料汇总 - 基于MindSpore的易用高性能NLP框架

18 天前

MindNLP是一个基于MindSpore的易用且高性能的NLP和大模型框架,兼容Hugging Face生态系统。本文汇总了MindNLP的相关学习资源,帮助开发者快速入门和使用这个框架。

MindNLP 自然语言处理预训练模型大语言模型 MindSpore Github 开源项目

18 天前

StyleSpeech学习资料汇总 - 多说话人自适应文本转语音生成系统

18 天前

StyleSpeech是一个创新的多说话人自适应文本转语音(TTS)系统,能够生成高质量且风格可控的语音。本文汇总了StyleSpeech的相关学习资源,帮助读者快速了解和上手这一前沿TTS技术。

Meta-StyleSpeech 文本到语音自适应预训练模型音质 Github 开源项目

18 天前

Matcha-TTS学习资料汇总 - 快速非自回归神经网络TTS架构

18 天前

Matcha-TTS是一种新的非自回归神经网络TTS方法,使用条件流匹配来加速基于ODE的语音合成。本文汇总了Matcha-TTS的相关学习资源,包括项目介绍、安装使用、模型训练等方面的信息。

Matcha-TTS 非自回归神经TTS 音频合成试用预训练模型 Github 开源项目

18 天前

DiffWave学习资源汇总 - 快速高质量的神经声码器与波形合成器

18 天前

DiffWave是一个基于扩散概率模型的多功能波形生成工具,能够进行条件和非条件音频合成。本文汇总了DiffWave的相关学习资源,帮助读者快速了解和上手这一强大的音频生成模型。

DiffWave 语音合成神经声码器波形合成器预训练模型 Github 开源项目

18 天前

deepvoice3_pytorch学习资料汇总 - 基于PyTorch的卷积神经网络文本转语音合成模型实现

18 天前

本文汇总了deepvoice3_pytorch项目的各种学习资料,包括项目简介、代码实现、在线演示、预训练模型、使用教程等,帮助读者快速了解和使用这个强大的语音合成工具。

DeepVoice3 文本转语音 PyTorch 多说话者模型预训练模型 Github 开源项目

18 天前

相关项目

CycleGAN

CycleGAN 利用循环一致性对抗网络，实现了无需成对输入输出数据的图像到图像的转换。这一技术广泛应用于风格转换、季节变换及更多复杂场景，支持PyTorch实现，并提供丰富的预训练模型。无论是艺术画作到现实照片的转换，还是不同季节间的景观变化，CycleGAN 都能提供令人印象深刻的视觉效果。

IMS-Toucan

IMS Toucan是由斯图加特大学自然语言处理研究所开发的一套工具集，专注于教学、培训和使用最先进的语音合成模型。该项目基于Python和PyTorch开发，旨在为初学者提供简单、强大的学习工具。此外，IMS Toucan支持多语言和多讲者音频生成，可用于文学研究、语音克隆等多种场景。

3D-ResNets-PyTorch

该项目提供基于PyTorch的3D ResNet代码，适用于动作识别，支持Kinetics和Moments in Time等数据集。项目包含训练、微调和测试脚本，并提供预训练模型，支持最新的PyTorch版本和分布式训练。用户可使用详细脚本进行数据准备和模型评估，适合研究与应用。

spark-nlp

Spark NLP 是一个基于 Apache Spark 的开源库，提供高效且准确的自然语言处理注释，支持机器学习管道的分布式扩展。该库包含超过 36000 个预训练管道和模型，支持 200 多种语言，涵盖分词、词性标注、嵌入、命名实体识别、文本分类、情感分析、机器翻译等任务。兼容 BERT、RoBERTa 等主流变压器模型，支持 Python、R、Java、Scala 和 Kotlin。

mindnlp

MindNLP是一个基于MindSpore的开源自然语言处理库，支持语言模型、机器翻译、问答系统、情感分析、序列标注和摘要生成等多种任务。该项目集成了BERT、Roberta、GPT2和T5等多种预训练模型，通过类似Huggingface的API简化了使用流程。用户可通过pypi或源代码安装该库，并支持包括Llama、GLM和RWKV在内的大型语言模型的预训练、微调和推理，非常适合研究者和开发人员构建和训练模型。

ru-dalle

ru-dalle是一个开源的图像生成工具，能够将文本描述转换成详细的图像。采用预训练模型，支持多种风格，包括Malevich、Emojich等，适用于多种应用场景，如艺术设计、内容创作等。该项目提供易于使用的API，允许用户快速生成高分辨率图像，并支持图片微调和超分辨率处理，使图像更加精细和真实。

gpt-neo

GPT-Neo项目在mesh-tensorflow库的支持下，开发出了类似于GPT-3的高级模型与数据并行技术。项目支持在TPU及GPU上进行高效训练与推理，并集成了局部注意力、线性注意力和多专家系统等先进技术，能有效处理大规模参数模型。GPT-Neo还提供了多项模型评估功能，专注于语言和科学推理，拓宽了其在自然语言处理应用中的领域。

deepvoice3_pytorch

DeepVoice3_pytorch是基于PyTorch的文本到语音深度学习平台，支持多语种和多数据集，包括英语、日语和韩语，适合多个说话者或单个说话者。项目提供预训练模型、音频样本、在线演示及详尽的训练指南，旨在简化用户的使用过程，并能灵活定制个性化的语音合成应用。

TTS

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com