#NeMo
GenerativeAIExamples - 生成式AI示例,快速部署和测试
NVIDIARAGLangChainTritonNeMoGithub开源项目
NVIDIA提供的生成式AI示例,使用CUDA-X软件栈和NVIDIA GPU,展示快速部署、测试和扩展AI模型的方法。包括最新的RAG管道构建技巧、实验性示例和企业应用,支持本地和远程推理,集成流行LLM编程框架,并附有详细开发文档。
parakeet-tdt_ctc-1.1b - 高性能自动语音识别模型解决方案
词错误率自动语音识别数据集Github开源项目快速同构体NeMoHuggingface模型
parakeet-tdt_ctc-1.1b提供了一个功能强大的语音识别模型,支持将语音转录为包含标点和大写字母的文本。由NVIDIA NeMo和Suno.ai团队联合开发,拥有1.1B的参数规模,能够高效地处理大规模的音频数据。该模型利用局部注意力和全局令牌技术实现单次处理11小时音频。其在多个公开数据集上的出色表现,表明其在语音转录应用中有广泛的适用性和较低的词错误率(WER)。
parakeet-rnnt-0.6b - 先进的英语语音识别模型 准确率达98.37%
模型Transducer开源项目Huggingface语音转文本FastConformerGithub自动语音识别NeMo
parakeet-rnnt-0.6b是NVIDIA NeMo和Suno.ai联合开发的英语语音识别模型。采用FastConformer Transducer架构,拥有约6亿参数。在LibriSpeech测试集上错误率仅1.63%,多个数据集上表现优异。支持16kHz单声道音频输入,可通过NeMo工具包使用,适用于多种语音转文本场景。
mistral-nemo-instruct-2407-awq - Mistral-Nemo-Instruct-2407模型的AWQ量化指令版本
模型Github开源项目Huggingface人工智能自然语言处理大语言模型MistralNeMo
mistral-nemo-instruct-2407-awq是Mistral-Nemo-Instruct-2407模型的AWQ量化版本。这个项目通过使用AWQ(Activation-aware Weight Quantization)技术,在保持原有模型性能的基础上,显著降低了模型大小和计算资源需求。该模型适用于各类自然语言处理任务,为开发者和研究人员提供了一个优化的大规模语言模型选择。
parakeet-ctc-1.1b - 高效自动语音识别模型,快速完成语音转录
Github模型FastConformer开源项目词错误率NeMopytorch自动语音识别Huggingface
parakeet-ctc-1.1b是由NVIDIA NeMo和Suno.ai团队开发的ASR模型,采用FastConformer架构,参数量约11亿。该模型适用于16kHz单声道音频,可以转录语音为小写英文。经过多数据集测试,字错率表现优异,如LibriSpeech clean数据集WER为1.83。利用NVIDIA NeMo工具包,该模型可用于推理或微调,适合多领域音频转录。
uzbek-speaker-verification-v4 - 乌兹别克语说话人验证模型NeMo实现的优化
模型性能NeMoGithub开源项目模型Huggingface自动语音识别数据集Uzbek-speaker-verification-v4
提供预训练的乌兹别克语说话人验证模型,适合语音识别任务,支持NeMo工具包中的推理和微调。模型经过大量语音数据训练,在标准语音识别中表现良好,适用于学术研究和商业应用。
相关文章