但是他们需要被我们观察一段时间文字转WAV音频