能分辨出每一个文字转WAV音频