而且视频的确是经过文字转WAV音频