按照后者的说法文字转WAV音频