我们基本上就是被动的等待人家决定文字转WAV音频