他们首先会认识到文字转WAV音频