但他们受到的训练只不过是高于常人的文字转WAV音频