以及在场的人相比文字转WAV音频