则全部是用第一人称的镜头组成文字转WAV音频