基本上就意味着一般的拍摄流程文字转WAV音频