重点是她们的相貌和身段文字转WAV音频