#CUDA加速

STT语音识别转文字工具 - 离线运行的本地语音识别服务

2 个月前
Cover of STT语音识别转文字工具 - 离线运行的本地语音识别服务

gsplat: 高效的3D高斯体渲染库

3 个月前
Cover of gsplat: 高效的3D高斯体渲染库

ChatTTS-ui: 一个简单强大的本地文字转语音工具

3 个月前
Cover of ChatTTS-ui: 一个简单强大的本地文字转语音工具

AI声音克隆技术:打造个性化语音体验的新时代

3 个月前
Cover of AI声音克隆技术:打造个性化语音体验的新时代

STT: 离线语音识别转文字工具

3 个月前
Cover of STT: 离线语音识别转文字工具
相关项目
Project Cover

stt

这款语音识别工具可在本地离线运行,基于开源的fast-whisper模型,可将视频和音频中的人声快速转换为文字。支持输出json、srt及纯文本格式,无需联网,确保隐私安全,与openai语音识别接口准确率相当。用户可便捷下载预编译版本,或自行部署源码,支持多种操作系统。此外,还提供API接口,适合开发者使用。支持CUDA加速,优化处理速度。

Project Cover

clone-voice

clone-voice是一款支持16种语言的声音克隆工具,能将文字转换为语音或修改语音音色。具有易用的Web界面,无需高性能硬件即可使用,适用于教育和娱乐等多种用途。提供自然的合成效果,并支持在线录音功能。

Project Cover

ChatTTS-ui

ChatTTS-webUI为用户提供文字到语音合成服务,支持中英文及数字,可本地运行或通过API接入。采用GPU加速优化处理速度,适合个人及企业使用,提供多种部署方案。

Project Cover

gsplat

gsplat是一个基于CUDA的开源高斯渲染库,支持Python接口。该库利用3D高斯分布实现实时辐射场渲染,性能优于原始论文实现。gsplat可应用于3D高斯模型训练、2D图像拟合和大规模场景实时渲染。库提供PyPI和源码安装方式,包含多个示例和基准测试。项目持续改进中,欢迎开发者参与贡献。

Project Cover

bigvgan_v2_22khz_80band_256x

BigVGAN是一个通用神经网络声码器,支持高达44kHz采样率和512倍上采样。其最新版本优化了推理速度,改进了模型结构,并使用大规模多样化数据集训练。该模型在语音合成基准测试中表现出色,为音频生成任务提供了高性能解决方案。

投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号