再加上他自己本身有的和现在得到的文字转WAV音频