这里每一个空间通道都是稳定的文字转WAV音频