并在这个过程中得到格式化文字转WAV音频