所有的错误判断都是由他们自己做出的文字转WAV音频