而且还是在镜头之下的文字转WAV音频