Tensorflow 语音识别

使用谷歌tensorflow深度学习框架，sequence-to-sequence神经网络的语音识别。

替代了caffe-speech-recognition，有关背景信息请参阅此处。

2024 更新：使用 Whisper！

这个（相对）陈旧的项目已不再更新。
使用的 tensorflow 1.0 已经不再兼容，理论也再不在先进水平。我们强烈建议查看并使用 whisper

2020 更新：Mozilla 发布了 DeepSpeech

他们达到了很好的误差率。自由语音处于良好的掌控中，如果你是最终用户，请去那里。现在这个项目仅为教育目的维护。

终极目标

为 Linux 等创建一个像样的独立语音识别系统。有些人说我们有模型但没有足够的训练数据。我们不同意：有足够的训练数据（100GB 这里和 21GB openslr.org 上的这里，合成的文字转语音片段，有字幕的电影，古腾堡书籍，YouTube 带字幕等），我们只需要一个简单而强大的模型。这只是时间的问题……

样本频谱图，她说的内容， too laid?

样本频谱图，凯伦以每分钟 160 词的速度说“零”。

安装

克隆代码

git clone https://github.com/pannous/tensorflow-speech-recognition
cd tensorflow-speech-recognition
git clone https://github.com/pannous/layer.git
git clone https://github.com/pannous/tensorpeers.git

pyaudio

需求 portaudio (http://www.portaudio.com/)

git clone https://git.assembla.com/portaudio.git
./configure --prefix=/path/to/your/local
make
make install
export LD_LIBRARY_PATH=$LD_LIBRARY_PATH:/path/to/your/local/lib
export LIDRARY_PATH=$LIBRARY_PATH:/path/to/your/local/lib
export CPATH=$CPATH:/path/to/your/local/include
source ~/.bashrc