后者也仅有二十二重文字转WAV音频