他可以确定大概在哪两个中文字转WAV音频