因为一般的训练只能让她保持状态文字转WAV音频