这个推断不是因为他记忆中的文字转WAV音频