#时间戳

WhisperX: 突破性的语音识别技术实现精准转录与说话人分离

3 个月前

WhisperX 语音识别时间戳说话人分离对齐 Github 开源项目

3 个月前

Stable-ts: 基于OpenAI Whisper的高精度音频转录与时间戳对齐工具

3 个月前

Whisper 时间戳语音识别稳定性转录 Github 开源项目

3 个月前

Whisper-timestamped: 提供精确单词级时间戳的多语言自动语音识别工具

3 个月前

whisper-timestamped 语音识别 OpenAI 时间戳信心评分 Github 开源项目

3 个月前

相关项目

whisper-timestamped

whisper-timestamped 是一个增强型多语言语音识别工具，基于 OpenAI 的 Whisper 模型，通过动态时间规整(DTW)技术预测单词时间戳，并附带置信度评分。该扩展兼容所有 Whisper 版本，优化内存使用，适用于处理长音频文件。此外，还支持在运行 Whisper 模型前进行语音活动检测(VAD)，有效降低训练数据中的误差。whisper-timestamped 可提高识别准确度，尤其适用于包含语音卡顿或填充词的情景。

ksuid

ksuid是一个Go语言库，用于生成和解析可排序的唯一标识符KSUID。该库提供自然排序、无冲突和无依赖的标识符，具有高度可移植性。经过生产环境验证和性能优化，ksuid提供丰富的接口和命令行工具，适用于多种场景的唯一标识需求。

stable-ts

stable-ts是一个开源的Whisper语音转录优化工具。它通过改进时间戳生成算法，提高了转录结果的时间精确度。该工具扩展了Whisper的功能，增加了语音分离、降噪和时间戳调整等特性。stable-ts支持多种输出格式，并提供API和命令行接口，使语音转录更加稳定和高效。

whisperX

WhisperX是一款基于Whisper的开源自动语音识别工具，通过强制音素对齐和语音活动批处理技术，实现了高达70倍实时的转录速度。它提供精确的单词级时间戳和说话人分离功能，适用于长音频的高效转录和分析。WhisperX在保持高转录质量的同时，显著提升了时间戳的准确性，为音频处理领域带来了新的可能。

pg_uuidv7

pg_uuidv7是一个轻量级PostgreSQL扩展，专门用于生成符合版本7标准的UUID。该扩展提供UUID生成、时间戳提取和转换功能，性能接近原生函数。pg_uuidv7生成的UUID具有全局可排序性，适用于分布式系统，可作为主键或索引使用。此扩展易于安装，兼容多种操作系统和PostgreSQL版本。

Memacs

Memacs是专为Emacs和Org mode用户开发的元数据管理工具。它可从邮件、社交媒体、浏览记录等多种数据源提取信息,生成Org mode兼容文件。用户可通过Memacs轻松回顾过往活动、约会和交互,有效管理数字生活。该工具模块化设计,支持高度定制,助力用户增强个人信息管理能力,实现数字记忆的高效检索与回顾。

whisper-tiny.en

基于transformers.js开发的轻量级英语语音识别模型，集成ONNX格式权重实现Web端部署。模型支持基础文本转录、时间戳转录及单词级时间戳标记等功能，通过JavaScript可快速实现音频转文本识别。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com