明显是在指导自己文字转WAV音频