所以才很迟才能感应到文字转WAV音频