这其中固然有一部分是因为他们为了合理分配资源文字转WAV音频