基本上能确定当事双方文字转WAV音频