如果咱们的推断正确的话文字转WAV音频