更何况谁也不知道每一次的镜头是否都能够投入使用文字转WAV音频