他发现这里的训练确实要比之前苦难了很多文字转WAV音频