根据四人辨认文字转WAV音频