所以他的感觉倾向是前者文字转WAV音频