里面的摄像设备都已经准备好了文字转WAV音频