响应的剑音数量越多文字转WAV音频