而是单纯地记忆文字转WAV音频