更不可能如此准确的从出去的点回来文字转WAV音频