起码是部分意图文字转WAV音频