而不是被动的去承受文字转WAV音频