也就是根据现场的证据来看文字转WAV音频