但是所使用到的基本理论却是跟现实相通文字转WAV音频