而是由在场参拍者提供物品文字转WAV音频