那个模型仿照的是五六十年的古镇文字转WAV音频