我感觉他们肯定要用第二种阵容针对文字转WAV音频