从眼前之人的穿着和排场来看文字转WAV音频