我们了解的也只是皮毛文字转WAV音频