归根到底它要传递给听者的文字转WAV音频