两人的动作几乎同时完成文字转WAV音频