观众就无法融入文字转WAV音频