就是时间和空间的统一运用文字转WAV音频