他使用的是指令一文字转WAV音频