Project Icon

seed-tts-eval

零样本语音生成评估数据集与度量工具

seed-tts-eval是一个开源项目,提供评估零样本语音生成能力的客观测试集。该测试集包含英语和中文公开语料库样本,并配备计算词错误率和说话人相似度的脚本。这套工具主要用于评估语音合成模型在跨语言和零样本场景下的性能。项目采用Common Voice和DiDiSpeech-2数据集,包含3000个测试样本。评估指标包括使用Whisper和Paraformer模型的词错误率,以及基于WavLM的说话人相似度。这些工具有助于客观评估语音合成技术的进展。

stable-audio-metrics - 音频生成模型评估指标集合
GPU支持Githubstable-audio-metrics开源项目数据结构音频指标音频生成模型评估
stable-audio-metrics是一个评估音乐和音频生成模型的开源指标集合。它包含基于Openl3的Fréchet距离、基于PaSST的Kullback-Leibler散度和基于CLAP-LAION的CLAP分数。该项目针对长形式全频带立体声生成进行了优化,支持可变长度输入,并提供了详细文档和示例。适用于评估MusicCaps、AudioCaps和Song Describer等数据集的音频生成质量。
VoiceCraft - 实现零样本语音编辑和实时文本转语音的革命性技术
GithubVoiceCraft开源项目文本转语音神经编解码语言模型语音编辑零样本学习
VoiceCraft是一个开源的语音技术项目,专注于零样本语音编辑和实时文本转语音。该项目仅需几秒钟的参考音频即可克隆或编辑未知声音,在有声书、网络视频和播客等真实场景中表现出色。VoiceCraft提供多种运行方式,包括Google Colab、Docker和本地环境,方便研究人员和开发者使用。项目在语音编辑和零样本TTS领域达到了先进水平,为语音技术的发展开辟了新方向。
GigaSpeech - 多领域英语语音识别数据集提供10,000小时转录音频
GigaSpeechGithub开源项目数据集深度学习语音识别音频处理
GigaSpeech是一个开源的多领域英语语音识别数据集,包含33,000多小时音频数据,其中10,000小时有高质量人工转录。数据来源包括有声书、播客和YouTube等,并提供多个规模的训练和评估子集。项目提供多种语音识别工具包的数据准备脚本,由志愿者维护并欢迎社区贡献,旨在促进语音技术的研究和应用。
lmms-eval - 大规模多模态模型评估框架加速AI发展
AI基准测试GithubLMMs-eval多模态模型开源项目评估框架
lmms-eval是专为大规模多模态模型(LMMs)设计的评估框架,整合多种基准和数据集,提供一致高效的评估方法。支持图像、视频等多模态任务,简化评估流程,加速模型开发和性能比较。该框架为研究人员提供灵活工具,助力理解和改进LMMs能力,推动人工智能向通用人工智能(AGI)发展。lmms-eval旨在成为加速LMMs发展的重要生态系统组件。
Voice AI Evaluation by Canonical AI - 实时分析与优化语音AI交互性能
AI分析AI工具Canonical AILatencySignal-to-Noise RatioVoice AI
Canonical AI的Voice AI评估工具提供实时性能分析,通过监控信噪比、延迟、语速及中断等指标,识别并解决语音交互中的问题。其交互式演示与灵活的定价计划适合各类团队,提升语音助手的交互质量。
StyleSpeech - 多说话人自适应文本转语音生成
GithubMeta-StyleSpeech开源项目文本到语音自适应音质预训练模型
Meta-StyleSpeech项目结合最新的多说话者适应性文本到语音合成技术,通过样本少量的语音输入即可生成高质量合成语音。该项目运用风格自适应层归一化技术,高效适配不同说话者的声音特征。提供预训练模型和在线演示供实际应用测试。
ChatTTS - 优化对话场景的文本转语音技术,提供自然流畅的语音输出
AI工具ChatTTS人工智能对话系统自然语言处理语音合成
ChatTTS是一种针对对话场景优化的文本转语音模型,适用于聊天机器人和虚拟助手等应用。该模型支持英语和中文,通过大规模数据训练,生成自然、富有表现力的语音输出。ChatTTS具备多说话人支持、精细控制和优秀韵律等特点,能够实现逼真的交互式对话。开源版本提供40,000小时预训练模型,适合研究和开发。此模型在对话场景中表现突出,有助于提升语音交互的自然度和生动性。
SpeechTokenizer - 将语音标记化统一的开源工具
GithubRVQSpeechTokenizer开源项目语音信息处理语音标记器语音语言模型
SpeechTokenizer 是一个开源的语音标记化工具,采用编码器-解码器架构和残差向量量化技术,统一了语义和声学标记。该项目能够分层分离语音信息的不同方面,为语音语言模型提供更精确的输入。它提供了在 LibriSpeech 和 Common Voice 数据集上训练的模型,支持 16kHz 单声道语音处理。项目开源了训练代码和预训练模型,可用于语音处理研究和应用开发。
evalscope - 综合性大语言模型评估开源工具
EvalScopeGithub可视化大语言模型开源项目模型集成评估框架
EvalScope是一个全面的大语言模型评估框架,集成了多种基准数据集和评估指标。该框架提供模型集成、自动评估和报告生成功能,并支持Arena模式和可视化分析。通过整合OpenCompass和VLMEvalKit评估后端,EvalScope实现了多模态评估能力。此外,它能与ModelScope SWIFT平台无缝对接,支持大模型的端到端开发流程。
ToolQA - 评估工具增强型大语言模型的开源数据集
GithubToolQA大语言模型工具增强开源项目数据集评估基准
ToolQA是一个开源数据集,专门用于评估工具增强型大语言模型。数据集涵盖8个领域,包含需要综合使用多个工具解答的问题,分为简单和困难两个级别。ToolQA通过人机协作创建,提供了数据统计、下载链接、工具实现和基准代码,为研究人员评估和改进大语言模型的外部工具使用能力提供全面资源。
项目侧边栏1项目侧边栏2
推荐项目
Project Cover

豆包MarsCode

豆包 MarsCode 是一款革命性的编程助手,通过AI技术提供代码补全、单测生成、代码解释和智能问答等功能,支持100+编程语言,与主流编辑器无缝集成,显著提升开发效率和代码质量。

Project Cover

AI写歌

Suno AI是一个革命性的AI音乐创作平台,能在短短30秒内帮助用户创作出一首完整的歌曲。无论是寻找创作灵感还是需要快速制作音乐,Suno AI都是音乐爱好者和专业人士的理想选择。

Project Cover

有言AI

有言平台提供一站式AIGC视频创作解决方案,通过智能技术简化视频制作流程。无论是企业宣传还是个人分享,有言都能帮助用户快速、轻松地制作出专业级别的视频内容。

Project Cover

Kimi

Kimi AI助手提供多语言对话支持,能够阅读和理解用户上传的文件内容,解析网页信息,并结合搜索结果为用户提供详尽的答案。无论是日常咨询还是专业问题,Kimi都能以友好、专业的方式提供帮助。

Project Cover

阿里绘蛙

绘蛙是阿里巴巴集团推出的革命性AI电商营销平台。利用尖端人工智能技术,为商家提供一键生成商品图和营销文案的服务,显著提升内容创作效率和营销效果。适用于淘宝、天猫等电商平台,让商品第一时间被种草。

Project Cover

吐司

探索Tensor.Art平台的独特AI模型,免费访问各种图像生成与AI训练工具,从Stable Diffusion等基础模型开始,轻松实现创新图像生成。体验前沿的AI技术,推动个人和企业的创新发展。

Project Cover

SubCat字幕猫

SubCat字幕猫APP是一款创新的视频播放器,它将改变您观看视频的方式!SubCat结合了先进的人工智能技术,为您提供即时视频字幕翻译,无论是本地视频还是网络流媒体,让您轻松享受各种语言的内容。

Project Cover

美间AI

美间AI创意设计平台,利用前沿AI技术,为设计师和营销人员提供一站式设计解决方案。从智能海报到3D效果图,再到文案生成,美间让创意设计更简单、更高效。

Project Cover

稿定AI

稿定设计 是一个多功能的在线设计和创意平台,提供广泛的设计工具和资源,以满足不同用户的需求。从专业的图形设计师到普通用户,无论是进行图片处理、智能抠图、H5页面制作还是视频剪辑,稿定设计都能提供简单、高效的解决方案。该平台以其用户友好的界面和强大的功能集合,帮助用户轻松实现创意设计。

投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号