#语音翻译

StreamSpeech入门学习资料 - "全能"语音识别、翻译与合成模型

2 个月前

StreamSpeech 语音识别语音翻译多任务学习实时合成 Github 开源项目

2 个月前

Qwen2-Audio：最新的大规模音频-语言模型

3 个月前

Qwen2-Audio 语音识别语音翻译音频分析多语言支持 Github 开源项目

3 个月前

FunAudioLLM-APP: 突破语音交互的新境界

3 个月前

FunAudioLLM 语音聊天语音翻译人工智能音频处理 Github 开源项目

3 个月前

无缝通信:突破语言障碍的AI翻译技术

3 个月前

Seamless AI模型多语言翻译语音翻译实时翻译 Github 开源项目

3 个月前

StreamSpeech: 革命性的实时语音翻译技术

3 个月前

StreamSpeech 语音识别语音翻译多任务学习实时合成 Github 开源项目

3 个月前

相关项目

Captions

「Captions」为AI驱动的创意平台，支持选择编辑风格进行实时视频编辑，并能实现语音在28种语言中的实时翻译及唇动同步，助力内容创作者无需拍摄即可快速制作多语言视频，拓展全球影响力。

StreamSpeech

StreamSpeech通过一个整合的模型，在线和实时翻译中展现行业领先水平，支持多达8种包括语音识别和语音转换任务。提供Web GUI演示，允许用户在浏览器中直接体验。探索StreamSpeech的功能和实例。

seamless_communication

Seamless Communication项目开发了一系列AI模型，包括SeamlessM4T、SeamlessExpressive和SeamlessStreaming，支持近100种语言的多模态、实时和富有表现力的翻译。该项目通过开源工具和数据集，为研究人员和开发者提供了强大的序列建模组件，推动了更自然、真实的跨语言交流技术发展。

FunAudioLLM-APP

FunAudioLLM-APP是一个开源项目，包含Voice Chat和Voice Translation两个应用。Voice Chat提供AI驱动的对话系统，实现自然的语音交互。Voice Translation提供实时语音翻译功能，帮助不同语言使用者进行沟通。项目整合了CosyVoice和SenseVoice技术，旨在提升语音交互和翻译体验。

Qwen2-Audio

Qwen2-Audio是一款先进的音频语言模型，可处理多种音频输入并执行分析或生成文本响应。该模型提供语音交互和音频分析两种功能，在13项基准测试中展现出色性能，包括语音识别、翻译和情感分析等任务。目前已发布Qwen2-Audio-7B和Qwen2-Audio-7B-Instruct两个版本。

CaptionCreator

CaptionCreator是一款AI驱动的在线字幕生成工具。它能在3分钟内自动为视频或音频生成字幕和文本，支持50多种语言转录和翻译。输出可保存为字幕或纯文本格式。工具能处理嘈杂环境音频、多语言内容和不同口音。采用灵活的按需付费模式，无需订阅，积分永不过期。为内容创作者提供高效、便捷的字幕解决方案，适用于多种场景。

Telelingo

该实时电话翻译应用运用尖端AI技术，支持80多种语言的即时语音转换。省去人工翻译，显著降低成本。透明的按分钟计费模式让支出清晰可控。无论商务还是日常交流，都能有效消除语言壁垒，促进顺畅沟通。

idict

idict是一款先进的AI翻译应用，支持137种语言的实时翻译。应用集成了声音克隆、对象检测、图片翻译和文本翻译等功能，有效消除语言障碍。特色功能包括离线翻译、方言和口音支持，为用户提供全面的翻译体验。idict不仅是翻译工具，更是连接全球的桥梁，助力用户探索多元文化，拓展国际视野。

Speechlab

Speechlab作为专业自动配音平台，为音视频内容提供高质量转录、翻译和配音服务。支持多语言和方言，配音输出自然流畅。平台提供完整端到端控制，便于集成企业工作流程。适用于媒体、企业和教育领域，可扩大内容覆盖面，更新营销资料，提高教育视频可访问性。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com