Project Icon

Diff-HierVC

分层扩散模型实现高质量零样本语音转换

Diff-HierVC是一种分层语音转换系统,采用DiffPitch和DiffVoice两个扩散模型。DiffPitch生成目标音高,DiffVoice转换语音风格。系统还使用源滤波器编码器和掩蔽先验技术,提高语音风格迁移和说话人适应能力。在零样本语音转换中,Diff-HierVC实现0.83%字错率和3.29%等错率,展现出色的音高生成和语音风格迁移性能。

vall-e - 零样本文本到语音神经编解码器语言模型
GithubPyTorchVALL-E人工智能开源项目模型训练语音合成
VALL-E是一个基于PyTorch的开源项目,通过神经编解码器语言模型实现零样本文本到语音的转换。该模型可在单GPU上训练,能模拟特定说话者的语音,并采取了措施以防止技术的潜在滥用。然而,开发者没有提供完全训练的模型和服务。VALL-E提供了包括英语和中文在内的多语种语音技术支持,是语音技术研究的有益工具。
custom-diffusion - 文本到图像扩散模型微调方法
Custom DiffusionGithubStable Diffusion图像生成多概念定制开源项目文本到图像扩散模型
该项目提供了一种高效的文本到图像扩散模型微调方法。只需调整部分模型参数,即可在短时间内完成训练,并减少存储需求。项目还支持多概念组合,附带新数据集和完整的训练步骤。适用于多种类别和应用场景。
Comprehensive-Transformer-TTS - 基于非自回归 Transformer 的 TTS
GithubPyTorchTTS开源项目持续时间建模语音合成非自回归变换器
该项目采用非自回归Transformer技术,集成多种最新状态转换模型。Comprehensive-Transformer-TTS不仅提供监督与非监督持续时间建模, 也支持多种数据集和SOTA技术,如Fastformer和Long-Short Transformer,力求在文本到语音转换领域取得领先成果。
dreamtalk - 音频驱动的表情丰富说话头像生成系统
AI表情生成DreamTalkGithub开源项目扩散模型生成说话人头像音频驱动
DreamTalk是一个创新的音频驱动说话头像生成系统,采用扩散概率模型技术。该系统能生成高质量、表情丰富的说话头像视频,适应多种说话风格。DreamTalk在处理歌曲、多语言语音、噪声音频和非常规肖像等多样化输入时表现优异。通过结合扩散概率模型,DreamTalk实现了准确的唇形同步和生动的面部表情,为不同说话风格提供了灵活支持。
Multilingual_Text_to_Speech - 多语言文本到语音合成技术
GithubMeta-learningTacotron 2多语言文本转语音开源项目神经网络模型语音合成
Multilingual_Text_to_Speech项目综合采用Tacotron 2模型与元学习技术,支持复杂的多语言语音合成实验,提供完善的编码器共享机制,并包含丰富的语言数据及互动示范,旨在推动学术研究及应用开发。
wav2vec2-large-lv60 - 深度学习实现高性能语音识别 仅需少量标记数据
GithubHuggingfaceWav2Vec2开源项目模型深度学习语音识别语音预训练音频处理
Wav2Vec2是Facebook开发的语音预训练模型,通过无监督学习从原始音频中提取语音特征。该模型在大规模未标注数据上预训练后,能够以极少量的标注数据实现高性能语音识别。在LibriSpeech测试集上,全量标注数据训练可达1.8/3.3词错率;仅用1小时标注数据即超过先前100小时数据的最佳结果;10分钟标注数据也能实现4.8/8.2词错率。Wav2Vec2为低资源环境下的高质量语音识别提供了新的可能性。
deep-speaker - 深度学习语者嵌入系统,适用语者识别与验证
Deep SpeakerGithubKerasTensorflow开源项目神经网络说话人嵌入
本系统利用神经网络将语音映射到超球面,通过余弦相似度计算语音相似度,实现语者识别、验证与聚类。基于TensorFlow和Keras实现,支持多版本,提供可训练和预训练模型。适用于需大规模数据处理和高性能计算的用户,并提供详细的训练与测试指南。
sd-image-variations-diffusers - 基于Stable Diffusion的开源图像变体生成模型
CLIPGithubHuggingfaceStable Diffusion人工智能图像变体图像生成开源项目模型
sd-image-variations-diffusers是一个经过微调的Stable Diffusion模型,通过CLIP图像嵌入技术实现图像变体生成。该模型集成Diffusers库,可生成高质量的图像变体,主要应用于艺术创作、教育工具和AI研究等领域。模型目前已发布V2版本,相比V1版本具有更好的图像质量和相似度表现,但在生成人脸和文字方面仍存在局限性。
stable-zero123-diffusers - 将单一图像智能转换为精确三维模型的AI技术
GithubHuggingfaceZero-1-to-3人工智能内容审核图像生成开源项目模型模型安全
这是一个基于Stable Diffusion技术的开源项目,通过AI将2D图像自动转换为3D模型。项目采用Objaverse数据集训练,主要应用于研究领域,可用于艺术创作、教育和产品设计。该技术虽在文字渲染和人像生成方面存在限制,但为计算机视觉领域带来突破性进展。
wav2vec2-large-xlsr-53-german - 优化德语自动语音识别的开源模型
Common VoiceGithubHuggingfaceWav2Vec2开源项目德语模型深度学习语音识别
本项目利用wav2vec2-large-xlsr-53-german模型对德语Common Voice数据集进行自动语音识别,得到WER为18.5%的结果。项目采用Torchaudio和Transformers库,并使用Resample进行音频预处理。该模型在语音转文字应用中具有广泛的研究价值。
项目侧边栏1项目侧边栏2
推荐项目
Project Cover

豆包MarsCode

豆包 MarsCode 是一款革命性的编程助手,通过AI技术提供代码补全、单测生成、代码解释和智能问答等功能,支持100+编程语言,与主流编辑器无缝集成,显著提升开发效率和代码质量。

Project Cover

AI写歌

Suno AI是一个革命性的AI音乐创作平台,能在短短30秒内帮助用户创作出一首完整的歌曲。无论是寻找创作灵感还是需要快速制作音乐,Suno AI都是音乐爱好者和专业人士的理想选择。

Project Cover

有言AI

有言平台提供一站式AIGC视频创作解决方案,通过智能技术简化视频制作流程。无论是企业宣传还是个人分享,有言都能帮助用户快速、轻松地制作出专业级别的视频内容。

Project Cover

Kimi

Kimi AI助手提供多语言对话支持,能够阅读和理解用户上传的文件内容,解析网页信息,并结合搜索结果为用户提供详尽的答案。无论是日常咨询还是专业问题,Kimi都能以友好、专业的方式提供帮助。

Project Cover

阿里绘蛙

绘蛙是阿里巴巴集团推出的革命性AI电商营销平台。利用尖端人工智能技术,为商家提供一键生成商品图和营销文案的服务,显著提升内容创作效率和营销效果。适用于淘宝、天猫等电商平台,让商品第一时间被种草。

Project Cover

SubCat字幕猫

SubCat字幕猫APP是一款创新的视频播放器,它将改变您观看视频的方式!SubCat结合了先进的人工智能技术,为您提供即时视频字幕翻译,无论是本地视频还是网络流媒体,让您轻松享受各种语言的内容。

Project Cover

美间AI

美间AI创意设计平台,利用前沿AI技术,为设计师和营销人员提供一站式设计解决方案。从智能海报到3D效果图,再到文案生成,美间让创意设计更简单、更高效。

Project Cover

AIWritePaper论文写作

AIWritePaper论文写作是一站式AI论文写作辅助工具,简化了选题、文献检索至论文撰写的整个过程。通过简单设定,平台可快速生成高质量论文大纲和全文,配合图表、参考文献等一应俱全,同时提供开题报告和答辩PPT等增值服务,保障数据安全,有效提升写作效率和论文质量。

Project Cover

天工AI音乐

天工AI音乐平台支持音乐创作,特别是在国风音乐领域。该平台适合新手DJ和音乐爱好者使用,帮助他们启动音乐创作,增添生活乐趣,同时发现和分享新音乐。

投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号