但是他们依靠着文字转WAV音频