学者们首先提出将一个常识作为前提文字转WAV音频