而是通过共享他人视野和听觉的方式文字转WAV音频