按照这个理论推理下去文字转WAV音频