如果按照现场的修士数量计算文字转WAV音频