所以他是不是可以直接理解为文字转WAV音频