这样在面对一些极端情况的时候可以做出最正确的判断文字转WAV音频