并根据这些人身上的各种细节特征文字转WAV音频