第四个数据是信息质量文字转WAV音频