#时间戳

WhisperX: 突破性的语音识别技术实现精准转录与说话人分离

3 个月前
Cover of WhisperX: 突破性的语音识别技术实现精准转录与说话人分离

Stable-ts: 基于OpenAI Whisper的高精度音频转录与时间戳对齐工具

3 个月前
Cover of Stable-ts: 基于OpenAI Whisper的高精度音频转录与时间戳对齐工具

Whisper-timestamped: 提供精确单词级时间戳的多语言自动语音识别工具

3 个月前
Cover of Whisper-timestamped: 提供精确单词级时间戳的多语言自动语音识别工具
相关项目
Project Cover

whisper-timestamped

whisper-timestamped 是一个增强型多语言语音识别工具,基于 OpenAI 的 Whisper 模型,通过动态时间规整(DTW)技术预测单词时间戳,并附带置信度评分。该扩展兼容所有 Whisper 版本,优化内存使用,适用于处理长音频文件。此外,还支持在运行 Whisper 模型前进行语音活动检测(VAD),有效降低训练数据中的误差。whisper-timestamped 可提高识别准确度,尤其适用于包含语音卡顿或填充词的情景。

Project Cover

ksuid

ksuid是一个Go语言库,用于生成和解析可排序的唯一标识符KSUID。该库提供自然排序、无冲突和无依赖的标识符,具有高度可移植性。经过生产环境验证和性能优化,ksuid提供丰富的接口和命令行工具,适用于多种场景的唯一标识需求。

Project Cover

stable-ts

stable-ts是一个开源的Whisper语音转录优化工具。它通过改进时间戳生成算法,提高了转录结果的时间精确度。该工具扩展了Whisper的功能,增加了语音分离、降噪和时间戳调整等特性。stable-ts支持多种输出格式,并提供API和命令行接口,使语音转录更加稳定和高效。

Project Cover

whisperX

WhisperX是一款基于Whisper的开源自动语音识别工具,通过强制音素对齐和语音活动批处理技术,实现了高达70倍实时的转录速度。它提供精确的单词级时间戳和说话人分离功能,适用于长音频的高效转录和分析。WhisperX在保持高转录质量的同时,显著提升了时间戳的准确性,为音频处理领域带来了新的可能。

Project Cover

pg_uuidv7

pg_uuidv7是一个轻量级PostgreSQL扩展,专门用于生成符合版本7标准的UUID。该扩展提供UUID生成、时间戳提取和转换功能,性能接近原生函数。pg_uuidv7生成的UUID具有全局可排序性,适用于分布式系统,可作为主键或索引使用。此扩展易于安装,兼容多种操作系统和PostgreSQL版本。

Project Cover

Memacs

Memacs是专为Emacs和Org mode用户开发的元数据管理工具。它可从邮件、社交媒体、浏览记录等多种数据源提取信息,生成Org mode兼容文件。用户可通过Memacs轻松回顾过往活动、约会和交互,有效管理数字生活。该工具模块化设计,支持高度定制,助力用户增强个人信息管理能力,实现数字记忆的高效检索与回顾。

Project Cover

whisper-tiny.en

基于transformers.js开发的轻量级英语语音识别模型,集成ONNX格式权重实现Web端部署。模型支持基础文本转录、时间戳转录及单词级时间戳标记等功能,通过JavaScript可快速实现音频转文本识别。

投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号