他们必须相互依靠文字转WAV音频