只能选择被动的去承受文字转WAV音频