接着是周围的摊贩和路人文字转WAV音频