在正常情况下能够做出来的正确判断文字转WAV音频