也就是他记忆的初始文字转WAV音频