更不可能如此准确的捕捉到他们文字转WAV音频