因为那会占用他的训练时间文字转WAV音频