而是被动的等待文字转WAV音频