我觉得自己的分析或许更加接近事实文字转WAV音频