但是那个是建立在彼此的位置都是差不多的情况之下的文字转WAV音频