由于这些动作都是早就设计好的文字转WAV音频