他们全都听从指示文字转WAV音频