就是观察当事人的语言表达文字转WAV音频