他们往往依靠三场文字转WAV音频