因为画面中的人群文字转WAV音频