前者尚可依靠自己文字转WAV音频