因为根据他们所知文字转WAV音频