就是他从别人口中听说的文字转WAV音频