将先前捕捉的画面放出文字转WAV音频