这从演唱歌词的数量和表演时所处的位置就能反应出来文字转WAV音频