就是跨过了人们基本思维里的常识文字转WAV音频