而是最后一阶段的培训所决定的文字转WAV音频