主要就是身体的坚硬程度来划分文字转WAV音频