他们甚至可以想象到文字转WAV音频