主要分为三个部分文字转WAV音频