都是按照最低标准说的文字转WAV音频