MsEdgeTTS - 微软Edge朗读API的高效文字转语音模块

MsEdgeTTS 项目介绍

MsEdgeTTS 是一个简单易用的模块，依托于 Microsoft Edge 的朗读 API 来实现微软 Azure 语音服务。这个模块专为开发人员设计，帮助他们轻松地将文本转换为语音。尽管该模块并不完全支持 SSML（语音合成标记语言），但是它能支持 speak、voice 和 prosody 这三个基本元素，足以应对多数简单的文本转语音需求。

SSML 语法

SSML（Speech Synthesis Markup Language）是用来描述如何将文本转换为语音的诸多细节，如语音、语速、音高等的标准。如果您对 SSML 感兴趣，可以查看微软文档。

例如，下面是一个基础的 SSML 对象，它定义了语音的语种、语音类型和音调等：

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xmlns:mstts="https://www.w3.org/2001/mstts"
       xml:lang="${this._voiceLang}">
    <voice name="${voiceName}">
        <prosody rate="${rate}" pitch="${pitch}" volume="${volume}">
            ${input}
        </prosody>
    </voice>
</speak>

示例用法

写入流

使用模块的一个基本操作是将文本转换为音频流并使用。下面是一个简单的示例，演示了如何将问候文本写入音频流：

import {MsEdgeTTS, OUTPUT_FORMAT} from "msedge-tts";

const tts = new MsEdgeTTS();
await tts.setMetadata("en-IE-ConnorNeural", OUTPUT_FORMAT.WEBM_24KHZ_16BIT_MONO_OPUS);
const readable = tts.toStream("Hi, how are you?");

readable.on("data", (data) => {
    console.log("DATA RECEIVED", data);
    // 音频文件的原始数据
});

readable.on("close", () => {
    console.log("STREAM CLOSED");
});

写入文件

除了流，也可以直接将合成的语音保存为文件。以下是如何将文本转换为音频文件的示例：

import {MsEdgeTTS, OUTPUT_FORMAT} from "msedge-tts";

(async () => {
    const tts = new MsEdgeTTS();
    await tts.setMetadata("en-US-AriaNeural", OUTPUT_FORMAT.WEBM_24KHZ_16BIT_MONO_OPUS);
    const filePath = await tts.toFile("./example_audio.webm", "Hi, how are you?");  
})();

调整语音的速度、音调和音量

开发人员还可以自定义音频输出的语速、音高和音量，以满足特定需求：

import {MsEdgeTTS, OUTPUT_FORMAT} from "msedge-tts";

(async () => {
    const tts = new MsEdgeTTS();
    await tts.setMetadata("en-US-AriaNeural", OUTPUT_FORMAT.WEBM_24KHZ_16BIT_MONO_OPUS);
    const filePath = await tts.toFile("./example_audio.webm", "Hi, how are you?", {rate: 0.5, pitch: "+200Hz"});
})();

使用代理

通过支持自定义 HTTP 代理，MsEdgeTTS 可以适应不同的网络环境。以下示例显示了如何使用 socks 代理：

import {SocksProxyAgent} from 'socks-proxy-agent';

(async () => {
    const agent = new SocksProxyAgent("socks://your-name%40gmail.com:abcdef12345124@br41.nordvpn.com")
    const tts = new MsEdgeTTS(agent);
    await tts.setMetadata("en-US-AriaNeural", OUTPUT_FORMAT.WEBM_24KHZ_16BIT_MONO_OPUS);
    const filePath = await tts.toFile("./example_audio.webm", "Hi, how are you?");
})();

API 文档

有关 MsEdgeTTS 的完整 API 文档，请参考 API 文档。模块仅支持使用 Promise 来处理异步操作。

通过这些功能，开发人员可以简化实现文本到语音转换的过程，将模块灵活地集成到各种应用中，实现丰富的用户互动体验。