而且他的基础的确太薄弱了文字转WAV音频