在场的人要么是他们这边的人文字转WAV音频