判断的准确度建立在看见的是文字转WAV音频