他们选择的是一种被称为文字转WAV音频