但是整个过程自己都是有参与的文字转WAV音频