这种融合并非只是简单的将两种势同时使用文字转WAV音频