只不过是通过他的嘴说出来罢了文字转WAV音频