#开源工具包

vosk-api入门学习资料汇总 - 开源离线语音识别工具包

2 个月前

Vosk 语音识别离线开源工具包多语言支持 Github 开源项目

2 个月前

NILMTK: 非侵入式负载监测工具包简介及应用

3 个月前

NILMTK 非侵入式负载监测能源分解开源工具包电器能耗估算 Github 开源项目

3 个月前

LightZero: 结合蒙特卡洛树搜索与深度强化学习的轻量级算法工具包

3 个月前

LightZero MCTS 强化学习开源工具包算法基准测试 Github 开源项目

3 个月前

RSAlgorithms: 推荐系统算法工具包

3 个月前

推荐系统协同过滤矩阵分解社交推荐开源工具包 Github 开源项目

3 个月前

EasyTPP: 开放基准测试时序点过程的开源工具库

3 个月前

EasyTPP 时间点过程机器学习开源工具包事件预测 Github 开源项目

3 个月前

Kaldi:开源强大的语音识别工具包

3 个月前

Kaldi 语音识别开源工具包跨平台 GitHub Github 开源项目

3 个月前

AcademiCodec: 开源音频编解码模型助力学术研究

3 个月前

AcademiCodec 音频编解码开源工具包 AI模型音频压缩 Github 开源项目

3 个月前

3D-Speaker: 多模态说话人验证、识别与分割的开源工具包

3 个月前

说话人验证开源工具包 3D-Speaker 预训练模型 ModelScope Github 开源项目

3 个月前

Encord Active: 革新计算机视觉的开源工具包

3 个月前

Encord Active 开源工具包模型评估数据标签虚拟环境 Github 开源项目

3 个月前

MarkLLM: 开源大语言模型水印工具包的全面介绍

3 个月前

MarkLLM 开源工具包大语言模型水印技术 Python包 Github 开源项目

3 个月前

相关项目

vosk-api

Vosk是一款离线开源语音识别工具包，支持20多种语言和方言。其模型体积小（仅50MB），但能提供连续的大词汇量转录、零延迟响应和流媒体API。支持Python、Java、Node.JS、C#、C++、Rust、Go等多种编程语言。适用于聊天机器人、智能家居设备、虚拟助手，也能为电影创建字幕、为讲座和采访生成转录。Vosk从Raspberry Pi等小型设备到大型集群均可扩展。访问Vosk官网获取安装指南、示例和文档。

MarkLLM

MarkLLM是一个开源工具包，致力于支持大规模语言模型 (LLM) 的水印研究和应用。它提供一个统一的平台，支持九种不同的水印算法，还包括自定义可视化工具和详尽的评估模块，便于研究人员和普通用户对水印技术的访问、理解和评估。

pytextclassifier

PyTextClassifier是一款高性能的Python工具库，提供多种文本分类和聚类算法，支持二分类、多分类、多标签分类和Kmeans聚类。适用于情感分析和文本风险分类，设计简明易用，算法高效清晰。支持句子和文档级的文本任务，兼容英文和中文文本。包含FastText、TextCNN、TextRNN和BERT等深度学习模型，适合各类生产环境。

encord-active

Encord Active是一个开源工具包，专为测试、验证和优化模型性能而设计。其功能包括高级错误分析、模型可解释性报告、自然语言数据搜索，以及数据集错误与偏见的检测和修复。支持本地和云端版本，适用于计算机视觉项目的各个阶段。

wenet

WeNet项目提供生产就绪的全栈语音识别方案，强调精准与轻量化。项目在多个公共语音数据集上实现了最先进效果。WeNet易于安装和使用，支持Python编程和命令行操作，并兼容多种硬件，包括Ascend NPU。通过借鉴ESPnet和Kaldi等项目，WeNet提供高效的模型训练和部署方式。用户可在GitHub或微信讨论群中参与交流，获取技术支持和项目信息更新。

3D-Speaker

3D-Speaker是一个开源的单模态和多模态说话人验证、识别和分离工具包。它提供ERes2Net、CAM++等预训练模型，适用于多种说话人相关任务。该项目发布的大规模语音数据集3D-Speaker有助于语音表示解耦研究。3D-Speaker支持有监督和自监督训练，以及语言识别等多种实验设置，为研究人员提供全面的说话人技术解决方案。

AcademiCodec

AcademiCodec是首个开源音频编解码工具包，包含EnCodec、SoundStream和HiFi-Codec等模型的训练代码和预训练模型。其创新的群组残差向量量化(GRVQ)技术实现了仅需4个码本的高保真音频编解码器HiFi-Codec。该项目利用超过1000小时的公开TTS数据训练，旨在促进音频编解码和生成领域的学术研究与应用开发。

kaldi

Kaldi是一款先进的开源ASR（自动语音识别）工具包，适用于UNIX、Linux等多种系统。它为语音处理研究和应用开发提供了全面的工具和资源，包括详细文档和示例系统。Kaldi支持多种平台，包括PowerPC、Android和Web Assembly，并拥有活跃的开发者社区，为语音技术的创新和应用提供了强大支持。

pyannote-audio

pyannote.audio是基于PyTorch的开源语音说话人分离工具包，提供先进预训练模型和管道。支持针对特定数据集微调，实现多GPU训练，采用Python优先API。在多项基准测试中表现优异，并提供全面文档和教程，包括模型应用、训练和自定义指南。适用于需要高性能说话人分离功能的音频处理项目。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com