所以只能伺机而动寻找目标文字转WAV音频