最终目的是在合适的时间命中目标文字转WAV音频