他能捕捉到现场的每一个变化和细节文字转WAV音频