他主要强调了两点文字转WAV音频