他也没法推断出什么文字转WAV音频