然后我们兵分四路去捕捉他们文字转WAV音频