毕竟这个是在镜头下文字转WAV音频