但学术认可的差距是微乎其微的文字转WAV音频