因为它已经猜到了是哪两个人文字转WAV音频