两人所看到的层面文字转WAV音频