但他们必须面对文字转WAV音频