绝大部分动作都是设定好的文字转WAV音频