好像在他们出声前文字转WAV音频