必须靠记忆来获取文字转WAV音频