可是他们看到的景象是文字转WAV音频