他们只需要最外在的皮毛文字转WAV音频