MsEdgeTTS 项目介绍
MsEdgeTTS 是一个简单易用的模块,依托于 Microsoft Edge 的朗读 API 来实现微软 Azure 语音服务。这个模块专为开发人员设计,帮助他们轻松地将文本转换为语音。尽管该模块并不完全支持 SSML(语音合成标记语言),但是它能支持 speak
、voice
和 prosody
这三个基本元素,足以应对多数简单的文本转语音需求。
SSML 语法
SSML(Speech Synthesis Markup Language)是用来描述如何将文本转换为语音的诸多细节,如语音、语速、音高等的标准。如果您对 SSML 感兴趣,可以查看 微软文档。
例如,下面是一个基础的 SSML 对象,它定义了语音的语种、语音类型和音调等:
<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xmlns:mstts="https://www.w3.org/2001/mstts"
xml:lang="${this._voiceLang}">
<voice name="${voiceName}">
<prosody rate="${rate}" pitch="${pitch}" volume="${volume}">
${input}
</prosody>
</voice>
</speak>
示例用法
写入流
使用模块的一个基本操作是将文本转换为音频流并使用。下面是一个简单的示例,演示了如何将问候文本写入音频流:
import {MsEdgeTTS, OUTPUT_FORMAT} from "msedge-tts";
const tts = new MsEdgeTTS();
await tts.setMetadata("en-IE-ConnorNeural", OUTPUT_FORMAT.WEBM_24KHZ_16BIT_MONO_OPUS);
const readable = tts.toStream("Hi, how are you?");
readable.on("data", (data) => {
console.log("DATA RECEIVED", data);
// 音频文件的原始数据
});
readable.on("close", () => {
console.log("STREAM CLOSED");
});
写入文件
除了流,也可以直接将合成的语音保存为文件。以下是如何将文本转换为音频文件的示例:
import {MsEdgeTTS, OUTPUT_FORMAT} from "msedge-tts";
(async () => {
const tts = new MsEdgeTTS();
await tts.setMetadata("en-US-AriaNeural", OUTPUT_FORMAT.WEBM_24KHZ_16BIT_MONO_OPUS);
const filePath = await tts.toFile("./example_audio.webm", "Hi, how are you?");
})();
调整语音的速度、音调和音量
开发人员还可以自定义音频输出的语速、音高和音量,以满足特定需求:
import {MsEdgeTTS, OUTPUT_FORMAT} from "msedge-tts";
(async () => {
const tts = new MsEdgeTTS();
await tts.setMetadata("en-US-AriaNeural", OUTPUT_FORMAT.WEBM_24KHZ_16BIT_MONO_OPUS);
const filePath = await tts.toFile("./example_audio.webm", "Hi, how are you?", {rate: 0.5, pitch: "+200Hz"});
})();
使用代理
通过支持自定义 HTTP 代理,MsEdgeTTS 可以适应不同的网络环境。以下示例显示了如何使用 socks 代理:
import {SocksProxyAgent} from 'socks-proxy-agent';
(async () => {
const agent = new SocksProxyAgent("socks://your-name%40gmail.com:abcdef12345124@br41.nordvpn.com")
const tts = new MsEdgeTTS(agent);
await tts.setMetadata("en-US-AriaNeural", OUTPUT_FORMAT.WEBM_24KHZ_16BIT_MONO_OPUS);
const filePath = await tts.toFile("./example_audio.webm", "Hi, how are you?");
})();
API 文档
有关 MsEdgeTTS 的完整 API 文档,请参考 API 文档。模块仅支持使用 Promise 来处理异步操作。
通过这些功能,开发人员可以简化实现文本到语音转换的过程,将模块灵活地集成到各种应用中,实现丰富的用户互动体验。