显然他们都是这么被培养出来的文字转WAV音频