一种是推测过去文字转WAV音频