他用的是纯文字转WAV音频