而是双方的投入文字转WAV音频