目前的效果连自动模式都比不上文字转WAV音频