一方面是因为所处的文化环境文字转WAV音频