国内目前的评价体系就是按级别的文字转WAV音频