而是继续选择融合的话文字转WAV音频