因为他们都推断文字转WAV音频