感受到三个人的动作之后文字转WAV音频