从而对所有的庞杂气息进行完整萃取文字转WAV音频