它们极不易捕捉文字转WAV音频