因为留给我们捕捉的时间不会很多文字转WAV音频