则用于领悟左眼空间里的两段场景文字转WAV音频