或者说太上的理论有区别的是文字转WAV音频