他们也大致推测出文字转WAV音频