但他们一开始只是提出甄别文字转WAV音频