所以它们一般会选文字转WAV音频