前者是后者的基础文字转WAV音频