反而是直接用言语回击过去文字转WAV音频