它们两个只能被动防守文字转WAV音频