并且他需要大量的时间去观察文字转WAV音频