后者还要再去做一次校外平衡文字转WAV音频