第二个是攻击位置文字转WAV音频