也不可能实时捕捉到文字转WAV音频