还是等拿到核心数据时再干掉他文字转WAV音频