前提条件是张口的是另一个文字转WAV音频