可见其重视文字转WAV音频