#CUDA加速

STT语音识别转文字工具 - 离线运行的本地语音识别服务

2 个月前

语音识别 fast-whisper 本地部署 CUDA加速文本输出 Github 开源项目热门

2 个月前

gsplat: 高效的3D高斯体渲染库

3 个月前

gsplat 高斯散射 CUDA加速 3D渲染图形库 Github 开源项目

3 个月前

ChatTTS-ui: 一个简单强大的本地文字转语音工具

3 个月前

ChatTTS 语音合成 API接口 CUDA加速 ffmpeg Github 开源项目

3 个月前

AI声音克隆技术：打造个性化语音体验的新时代

3 个月前

声音克隆工具多语言支持 CUDA加速模型下载音频转换 Github 开源项目

3 个月前

STT: 离线语音识别转文字工具

3 个月前

语音识别 fast-whisper 本地部署 CUDA加速文本输出 Github 开源项目热门

3 个月前

相关项目

stt

这款语音识别工具可在本地离线运行，基于开源的fast-whisper模型，可将视频和音频中的人声快速转换为文字。支持输出json、srt及纯文本格式，无需联网，确保隐私安全，与openai语音识别接口准确率相当。用户可便捷下载预编译版本，或自行部署源码，支持多种操作系统。此外，还提供API接口，适合开发者使用。支持CUDA加速，优化处理速度。

clone-voice

clone-voice是一款支持16种语言的声音克隆工具，能将文字转换为语音或修改语音音色。具有易用的Web界面，无需高性能硬件即可使用，适用于教育和娱乐等多种用途。提供自然的合成效果，并支持在线录音功能。

ChatTTS-ui

ChatTTS-webUI为用户提供文字到语音合成服务，支持中英文及数字，可本地运行或通过API接入。采用GPU加速优化处理速度，适合个人及企业使用，提供多种部署方案。

gsplat

gsplat是一个基于CUDA的开源高斯渲染库,支持Python接口。该库利用3D高斯分布实现实时辐射场渲染,性能优于原始论文实现。gsplat可应用于3D高斯模型训练、2D图像拟合和大规模场景实时渲染。库提供PyPI和源码安装方式,包含多个示例和基准测试。项目持续改进中,欢迎开发者参与贡献。

bigvgan_v2_22khz_80band_256x

BigVGAN是一个通用神经网络声码器,支持高达44kHz采样率和512倍上采样。其最新版本优化了推理速度,改进了模型结构,并使用大规模多样化数据集训练。该模型在语音合成基准测试中表现出色,为音频生成任务提供了高性能解决方案。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com