所以他们只需要穿着衣服文字转WAV音频