因为显示在镜头里的文字转WAV音频