但是他们一般也是很少说话的文字转WAV音频