所以不能用普通人的情况来衡量他们文字转WAV音频