#训练模型

训练模型

1 个月前

DiffGAN-TTS学习资料汇总 - 基于去噪扩散GAN的高保真高效文本转语音模型

2 个月前
Cover of DiffGAN-TTS学习资料汇总 - 基于去噪扩散GAN的高保真高效文本转语音模型

DC-TTS学习资料汇总 - 基于深度卷积网络的高效文本转语音模型

2 个月前
Cover of DC-TTS学习资料汇总 - 基于深度卷积网络的高效文本转语音模型

Tacotron入门学习资料 - 端到端语音合成系统

2 个月前
Cover of Tacotron入门学习资料 - 端到端语音合成系统

seq2seq-couplet学习资料汇总 - 用深度学习生成对联的开源项目

2 个月前
Cover of seq2seq-couplet学习资料汇总 - 用深度学习生成对联的开源项目

darkflow入门学习资料 - 实时目标检测和分类工具

2 个月前
Cover of darkflow入门学习资料 - 实时目标检测和分类工具

Vanna学习资料汇总 - 基于RAG的文本到SQL生成框架

2 个月前
Cover of Vanna学习资料汇总 - 基于RAG的文本到SQL生成框架

MockingBird项目学习资料汇总 - AI克隆声音5秒生成任意语音

2 个月前
Cover of MockingBird项目学习资料汇总 - AI克隆声音5秒生成任意语音

tessdata_fast: Tesseract OCR的快速整数版训练模型

3 个月前
Cover of tessdata_fast: Tesseract OCR的快速整数版训练模型

InstructLab:开源AI项目助力大语言模型进化

3 个月前
Cover of InstructLab:开源AI项目助力大语言模型进化
相关项目
Project Cover

darkflow

Darkflow是一个用于实时物体检测和分类的开源项目,兼容Python3、Tensorflow、Numpy和OpenCV。用户可以通过pip安装、构建Cython扩展或使用自定义标签进行训练和推理。项目还提供Android演示和支持保存加载protobuf文件,适合跨平台应用。

Project Cover

seq2seq-couplet

该开源项目利用Tensorflow和seq2seq模型生成对联。用户可以通过[在线演示](https://ai.binwang.me/couplet)体验效果。运行项目需要Tensorflow、Python 3.6及特定数据集。通过配置couplet.py文件并运行可进行模型训练,训练过程中可在Tensorboard查看损失和BLEU评分。训练完成后,可运行server.py启动Web服务生成对联,或使用Docker镜像部署。

Project Cover

MockingBird

MockingBird项目是一款支持中文的语音克隆工具,支持多数据集和各种操作系统,包括Windows和Linux,甚至M1 MACOS。该项目利用最新的PyTorch技术,提供易于使用的界面和高效的处理能力,只需训练新的合成器即可实现令人印象深刻的效果。此外,该项目还提供了Web服务器功能,允许远程调用。是否需要定制语音合成解决方案,MockingBird都能满足您的需求。

Project Cover

vanna

Vanna是一款基于MIT许可的开源Python RAG(检索增强生成)框架,适用于SQL生成和相关功能。用户可以通过简单地训练模型和提问来自动生成可以在数据库上运行的SQL查询。此框架支持多种用户界面,并可连结任何SQL数据库。Vanna提供高精度处理复杂数据集的能力,确保数据安全与隐私,并支持自学习以提高未来查询的准确性。

Project Cover

Super-mario-bros-PPO-pytorch

该项目采用OpenAI开发的Proximal Policy Optimization (PPO) 算法,有效地训练AI,使其在超级马里奥兄弟游戏中完成31/32关卡。PPO算法因其出色的性能和适应性而广受关注,适用于视频游戏AI开发等多种场景。

Project Cover

tacotron

Tacotron是基于TensorFlow的开源语音合成系统,能够直接将文本转换为语音。本项目独立实现了Google的论文'Tacotron: Towards End-to-End Speech Synthesis',虽然当前性能未及Google的演示,但已具备一定参考价值。支持包括LJ Speech和Blizzard 2012在内的多种语音数据集,并允许通过命令行调整和优化参数。项目还提供了预训练模型的下载与部署指南,便于用户快速开始使用及测试。

Project Cover

DiffGAN-TTS

DiffGAN-TTS采用去噪扩散生成对抗网络技术,通过激活浅层扩散机制,提供了一种高效且高保真的文本到语音转换方案。该技术支持多种发音特征和语种,实现了保持语音自然度的同时,进行灵活的语音控制,包括音调和语速的调整。此技术适用于多语言和多说话人场景,为深度学习语音合成领域提供了新的可能性。

Project Cover

dc_tts

dc_tts,一个基于TensorFlow的文本到语音转换模型,使用深度卷积网络和引导注意力机制进行设计。项目不仅还原了相关学术论文,还对不同声音数据进行了深入研究,支持多种语言和数据集,提供完善的训练及预处理教程以及预训练模型,适用于学术研究和实际应用场景。

Project Cover

SpecVQGAN

SpecVQGAN项目提出了一种利用视觉提示生成声音的方法。通过将训练数据集缩小到一组代表向量(代码本),这些代码本向量可被控地进行采样,从而根据视觉提示生成新声音。项目使用VQGAN的训练方法在频谱图上训练代码本,并通过GPT-2变体的transformer在视觉特征条件下自回归地采样代码本条目。这种方法可以生成长时间、相关且高保真的声音,并支持多种数据类别。

投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号