我们可能担心的倒是文字转WAV音频