一般都是单纯的乐器文字转WAV音频