显然也是认出了两个人文字转WAV音频