SAM: 复古语音合成的现代复兴

Ray

sam

SAM: 软件自动口腔的现代重生

在当今人工智能和语音技术飞速发展的时代,一个来自1982年的语音合成软件SAM(Software Automatic Mouth)正在经历着令人惊喜的复兴。这个最初为Commodore 64开发的文本转语音(TTS)软件,如今通过JavaScript的力量重获新生,为现代开发者和爱好者提供了一个独特而有趣的语音合成工具。让我们一起深入探索SAM的世界,了解它的历史、功能和在现代技术环境中的应用。

SAM的起源与演变

SAM最初由Don't Ask Software(现为SoftVoice, Inc.)于1982年为Commodore 64平台开发。作为那个时代的先驱性语音合成软件,SAM以其简洁而有效的设计在计算机爱好者中迅速获得了关注。经过近40年的时光流转,SAM并未被遗忘在历史的长河中,而是通过开源社区的努力,以新的形式重现于世。

SAM的现代化之路始于Stefan Macke将其移植到C语言,随后Vidar Hokstad和8BitPimp对代码进行了进一步的重构和优化。而现在,我们看到的是一个由JavaScript实现的SAM版本,这要归功于GitHub用户discordier的贡献。这个版本保留了SAM的核心功能,同时将其带入了Web时代,使得任何拥有现代浏览器的人都能体验这款经典语音合成软件的魅力。

SAM的核心功能

SAM的工作原理可以简单地分为两个主要步骤:

文本到音素的转换(Reciter)
音素到语音的合成

这种设计使得SAM能够处理普通文本输入,并最终输出语音。尽管与现代的语音合成技术相比可能显得简单,但SAM的这种方法在当时是相当创新的,而且至今仍然具有其独特的魅力和应用价值。

在现代环境中使用SAM

感谢JavaScript的实现,现在使用SAM变得异常简单。开发者可以通过npm或yarn轻松地将SAM集成到他们的项目中:

yarn add sam-js

使用SAM的基本代码示例如下:

import SamJs from 'sam-js';

let sam = new SamJs();

// 通过扬声器播放"Hello world"
sam.speak('Hello world');

// 生成包含"Hello world"的波形文件并下载
sam.download('Hello world');

// 将文本渲染为8位波形缓冲数组
const buf8 = sam.buf8('Hello world');

// 将文本渲染为32位波形缓冲数组
const buf32 = sam.buf32('Hello world');

这种简洁的API设计使得SAM可以轻松集成到各种Web应用中,为项目增添一份复古而独特的语音合成功能。

SAM的个性化选项

SAM的一个有趣特性是其可调节的语音参数,允许用户创造出各种有趣的语音效果。以下是一些典型的语音设置:

描述              速度     音高     喉部     口型
精灵               72      64      110      160
小机器人           92      60      190      190
呆板的家伙         82      72      110      105
小老太太           82      32      145      145
外星人            100      64      150      200
SAM默认            72      64      128      128

通过调整这些参数,用户可以创造出各种有趣的语音角色,从高音调的精灵到低沉的机器人声音,为应用增添趣味性和个性化体验。