如果硬要描述的话文字转WAV音频