无非是辨识入文字转WAV音频