他们并不完全是从前面过来的文字转WAV音频