所以我们从逻辑上推理文字转WAV音频