那就是在说话之前文字转WAV音频