的每一个动作都发出文字转WAV音频