本来他们的架构是非常稳定的文字转WAV音频