也许我们可以把每一个场景都在现场实拍文字转WAV音频