拍摄是一个很庞大的系统文字转WAV音频