本质上相当于两者皆修文字转WAV音频