分析的是正理文字转WAV音频