看样子是要等对方先动了文字转WAV音频