因为码字的时候都会在脑子构筑起整个场景文字转WAV音频