其实完成的就是一个编曲的动作文字转WAV音频