所以他也要观察文字转WAV音频