能够掺和的话就掺和文字转WAV音频