所以很多时候他基本上需要一个字一个字的破译文字转WAV音频