逐渐从单纯的动作发展到表情文字转WAV音频