这个时候他已经无法这么自如的说话了文字转WAV音频