还是采用前者文字转WAV音频