而是在录音播完之后文字转WAV音频