而是主歌的两段歌词文字转WAV音频