将一切最近的会动的物体作为目标文字转WAV音频