也就是85%左右的分数文字转WAV音频