但用的却是询问的口气文字转WAV音频