因为预设的答案永远都只是预设的文字转WAV音频