这样在拍摄时就需要反复拍摄同一段文字转WAV音频