由于拍摄要用到文字转WAV音频