并且会记住他说的每一个字文字转WAV音频