我们目前初步确定的是这样的方案文字转WAV音频