要是让我们一个一个去抓文字转WAV音频