大概就是在人的颈部位置文字转WAV音频