而是被收集在一个被称作box的特殊存储装置之中文字转WAV音频