前者是害怕抓不到人文字转WAV音频