反复观察推断文字转WAV音频