第二阶段就是把文字转WAV音频