而我们得到的初步信息是文字转WAV音频