NEURO-SYMBOLIC CONCEPT LEARNER
我们提出了神经符号概念学习器(Neuro-Symbolic Concept Learner,NS-CL)模型,该模型能够在不对视觉概念、单词和句子的语义解析进行明确监督的情况下进行学习;相反,我们的模型通过简单地观察图像并阅读配对的问题和答案来学习。我们的模型构建了基于对象的场景表示,并将句子转化为可执行的符号程序。为了连接两个模块的学习,我们使用了神经符号推理模块,该模块执行这些程序在潜在场景表示上。类似于人类概念学习,感知模块基于对所指对象的语言描述学习视觉概念。同时,学到的视觉概念有助于学习新单词和解析新句子。我们采用课程学习来引导在图像和语言的大型组合空间中的搜索。大量实验证明了我们的模型在学习视觉概念、单词表示和句子的语义解析方面的准确性和效率。此外,我们的方法可以轻松推广到新的对象属性、组合、语言概念、场景和问题,甚至新的程序领域。它还赋予了包括视觉问答和双向图像-文本检索在内的应用程序更强大的能力。
NS-CL有三个模块:一个基于神经网络的感知模块,从场景中提取物体级别的表示;一个以视觉为基础的语义解析器,将问题翻译成可执行程序;一个符号程序执行器,读取对象的感知表示,对其属性/关系进行分类,并执行程序以获得答案。
任务
看图回答问题.
NS-CL是一个神经符号概念学习器,通过自然监督(图像和问答对)进行学习,无需对图像或句子的语义程序进行明确注释。它采用==课程学习方法==,从简单场景和问题开始,逐渐学习单个对象的视觉概念,如颜色和形状,然后推广到学习对象之间的关系。NS-CL的模块化设计实现了可解释、稳健和准确的视觉推理,在CLEVR数据集上达到最先进性能。最重要的是,它能够自然地学习视觉和语言概念,实现对不同场景和语义程序的多方面泛化,包括处理更复杂的场景、新的视觉属性组合、快速适应新的视觉概念,以及在新任务中迁移学习。
算法
将对象映射到视觉语义空间
-
语义解析
-
Symbolic Reasoning 作为图像对象概念和语义解析的桥梁