他能够捕捉到每个人的每个小动作文字转WAV音频