因为他们知道什么时候跑文字转WAV音频