而是直接的发声了文字转WAV音频