当然这一切的分析全部是建立在能够很好得演绎文字转WAV音频