以人类的状况来衡量文字转WAV音频