因为这种抽取是有一定损耗的文字转WAV音频