对于简单的识别还是可以的文字转WAV音频