这时拍摄者第一次说话文字转WAV音频