显然他们有自己的识别系统文字转WAV音频