所以他才会主动开口文字转WAV音频