越是到后面就越难捕捉文字转WAV音频