现在的问题就是能不能够把后面的人给挖出来文字转WAV音频