就按照我们刚才说的口头协议文字转WAV音频