所以他们必须通过暂时的后撤文字转WAV音频