对话时总是能够敏锐地抓住重点文字转WAV音频