就是以一个唱作人的姿态出现的文字转WAV音频