一开始他们还需要自己吸收文字转WAV音频