我们相当于已经得到文字转WAV音频