判断出对方的下一刻动作文字转WAV音频