这个推断符合绝大多数情况文字转WAV音频