因为两者的做法文字转WAV音频