因为它针对的是人类的自身文字转WAV音频