根据录像的显示文字转WAV音频