现在他能做的就是用近乎于俯看大半座城市的角度文字转WAV音频