大多数时候还是需要修士来催动文字转WAV音频