他肯定是先形成了记忆之后文字转WAV音频