然后再根据检测三式的情况文字转WAV音频