Logo

#开源工具包

vosk-api入门学习资料汇总 - 开源离线语音识别工具包

1 个月前
Cover of vosk-api入门学习资料汇总 - 开源离线语音识别工具包

LightZero: 结合蒙特卡洛树搜索与深度强化学习的轻量级算法工具包

2 个月前
Cover of LightZero: 结合蒙特卡洛树搜索与深度强化学习的轻量级算法工具包

EasyTPP: 开放基准测试时序点过程的开源工具库

2 个月前
Cover of EasyTPP: 开放基准测试时序点过程的开源工具库

AcademiCodec: 开源音频编解码模型助力学术研究

2 个月前
Cover of AcademiCodec: 开源音频编解码模型助力学术研究

Encord Active: 革新计算机视觉的开源工具包

2 个月前
Cover of Encord Active: 革新计算机视觉的开源工具包

NILMTK: 非侵入式负载监测工具包简介及应用

2 个月前
Cover of NILMTK: 非侵入式负载监测工具包简介及应用

RSAlgorithms: 推荐系统算法工具包

2 个月前
Cover of RSAlgorithms: 推荐系统算法工具包

Kaldi:开源强大的语音识别工具包

2 个月前
Cover of Kaldi:开源强大的语音识别工具包

3D-Speaker: 多模态说话人验证、识别与分割的开源工具包

2 个月前
Cover of 3D-Speaker: 多模态说话人验证、识别与分割的开源工具包

MarkLLM: 开源大语言模型水印工具包的全面介绍

2 个月前
Cover of MarkLLM: 开源大语言模型水印工具包的全面介绍

相关项目

Project Cover
vosk-api
Vosk是一款离线开源语音识别工具包,支持20多种语言和方言。其模型体积小(仅50MB),但能提供连续的大词汇量转录、零延迟响应和流媒体API。支持Python、Java、Node.JS、C#、C++、Rust、Go等多种编程语言。适用于聊天机器人、智能家居设备、虚拟助手,也能为电影创建字幕、为讲座和采访生成转录。Vosk从Raspberry Pi等小型设备到大型集群均可扩展。访问Vosk官网获取安装指南、示例和文档。
Project Cover
MarkLLM
MarkLLM是一个开源工具包,致力于支持大规模语言模型 (LLM) 的水印研究和应用。它提供一个统一的平台,支持九种不同的水印算法,还包括自定义可视化工具和详尽的评估模块,便于研究人员和普通用户对水印技术的访问、理解和评估。
Project Cover
pytextclassifier
PyTextClassifier是一款高性能的Python工具库,提供多种文本分类和聚类算法,支持二分类、多分类、多标签分类和Kmeans聚类。适用于情感分析和文本风险分类,设计简明易用,算法高效清晰。支持句子和文档级的文本任务,兼容英文和中文文本。包含FastText、TextCNN、TextRNN和BERT等深度学习模型,适合各类生产环境。
Project Cover
encord-active
Encord Active是一个开源工具包,专为测试、验证和优化模型性能而设计。其功能包括高级错误分析、模型可解释性报告、自然语言数据搜索,以及数据集错误与偏见的检测和修复。支持本地和云端版本,适用于计算机视觉项目的各个阶段。
Project Cover
wenet
WeNet项目提供生产就绪的全栈语音识别方案,强调精准与轻量化。项目在多个公共语音数据集上实现了最先进效果。WeNet易于安装和使用,支持Python编程和命令行操作,并兼容多种硬件,包括Ascend NPU。通过借鉴ESPnet和Kaldi等项目,WeNet提供高效的模型训练和部署方式。用户可在GitHub或微信讨论群中参与交流,获取技术支持和项目信息更新。
Project Cover
3D-Speaker
3D-Speaker是一个开源的单模态和多模态说话人验证、识别和分离工具包。它提供ERes2Net、CAM++等预训练模型,适用于多种说话人相关任务。该项目发布的大规模语音数据集3D-Speaker有助于语音表示解耦研究。3D-Speaker支持有监督和自监督训练,以及语言识别等多种实验设置,为研究人员提供全面的说话人技术解决方案。
Project Cover
AcademiCodec
AcademiCodec是首个开源音频编解码工具包,包含EnCodec、SoundStream和HiFi-Codec等模型的训练代码和预训练模型。其创新的群组残差向量量化(GRVQ)技术实现了仅需4个码本的高保真音频编解码器HiFi-Codec。该项目利用超过1000小时的公开TTS数据训练,旨在促进音频编解码和生成领域的学术研究与应用开发。
Project Cover
kaldi
Kaldi是一款先进的开源ASR(自动语音识别)工具包,适用于UNIX、Linux等多种系统。它为语音处理研究和应用开发提供了全面的工具和资源,包括详细文档和示例系统。Kaldi支持多种平台,包括PowerPC、Android和Web Assembly,并拥有活跃的开发者社区,为语音技术的创新和应用提供了强大支持。
Project Cover
pyannote-audio
pyannote.audio是基于PyTorch的开源语音说话人分离工具包,提供先进预训练模型和管道。支持针对特定数据集微调,实现多GPU训练,采用Python优先API。在多项基准测试中表现优异,并提供全面文档和教程,包括模型应用、训练和自定义指南。适用于需要高性能说话人分离功能的音频处理项目。
投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号