signed

QiShunwang

“诚信为本、客户至上”

学习笔记:类人归纳偏置在因果推理与分布外泛化的应用

2021/6/3 15:52:21   来源:

学习笔记:类人归纳偏置在因果推理与分布外泛化的应用(Human-Inspired Inductive Biases for Causal Reasoning and Out-of-Distribution Generalization)

在2021年4月举行的NVIDIA线上GTC大会上,约书亚*本希奥(Yoshua Bengio)对他最近的论文"高阶认知深度学习中的归纳偏置"(arxiv: 2011.15091)做了一个讲解。我们现将部分要点整理如下。
Yoshua Bengio

今天的机器学习模型中存在一个假设:未来的观察数据与训练模型所用的数据出自同一个分布,且样本之间遵循独立相同分布(Independently Identically Distributed, i.i.d.)的限制。真实世界中,新的观察数据往往来自不同的分布,这些差异的来源可能是一些变量本质上不同,或是同一个变量的分布不具有时间静止性(temporal non-stationarity)。这时,便没有理由期望模型在不经过调整的情况下获得良好的表现。而我们通常认为智慧的一个标志,就是对分布外数据的泛化能力。人类和其它高等生物的大脑,似乎对适应新的情形有着与生俱来的天分。用算法捕捉这种天分,是从业人员梦寐以求的目标。从贝叶斯的视角来看,一个人的历史体验能够有效地为当下的判断提供先验知识。尽管这样做出的判断不能保证百分之百的正确,它是在信息不完备条件下最佳的预测,长远来说往往也代表着最优的生存策略。这种先验知识实际上也是一种偏置(bias),而它的不确定性给了它归纳(induction)的名字,所以说此类研究的目标是通过观察人类大脑的工作方式,试图从中获取灵感,以设计出具备相似的归纳偏置的机器学习方法。

系统1/2认知

Bengio指出,人类在接触新事物时,会有意识地重新组合生活常识,进行推理和想象。这种思维模式有别于“下意识”的思维模式,也就是目前的神经网络试图效法的模式。这两种思维模式被Daniel Kahneman称为系统1和系统2:

  • 系统1
    • 直觉、快速、下意识地、一步并行、非语言的、习惯性
    • 隐含知识
    • 当前深度学习
  • 系统2
    • 缓慢、逻辑地、序列化地、有意识地、语言的、算法的、有计划的、推理的
    • 显式知识
    • 深度学习 2.0
      系统1认知示例:体操

系统2认知示例:象棋

隐含知识vs.可言传知识

大脑中的大部分知识是隐含而不可言传的。这类知识有着明显的进化烙印,我们无法准确地描述怎样爬树(哪种树?),但是可以在必要的时候娴熟地利用任意一棵树达到避险的目的。这样的例子数不胜数,不止是体力活动如骑自行车、游泳等,有些脑力活动也具备这种特征,比如说我们可以在极短的时间内判断出两堆谷子的大小差异。另外一些知识,可以用语言记录下来,抽象为一连串符号的形式,不但可以传达给他人,这种形式还可以用来推理,获得全新的知识。这种结晶化的可言传知识是早期人工智能(Symbolic AI)与专家系统(Expert Systems)追求的目标,在系统1深度学习高度发达的今天,如果能够将可言传知识嵌入机器学习架构与训练框架中,将会成为通向抽象感知,抽象推理与抽象行动的桥梁。

为了整合可言传知识,研究人员发现,自然语言有着与生俱来的优势。比如,“椅子”作为一个高级语义变量,可以用自然语言去描述:一种可以坐在上面工作的家具。这个描述具备许多重要的语义特性:

  • 层级(Hierarchy) 椅子是家具的一个子集,所以它继承了家具的特性;
  • 对象性(Objectness) 相对于动作者(Agents)而言,它是一个对象,所以它可能会扮演一个被动的角色,在因果图中处于下游的地位,比如:被使用、被移动、被修理;
  • 人类中心性(Anthropocentrism) “人”虽然不包括在椅子的定义内,但这个定义隐含了人对椅子之为椅子的重要意义,正因为大多数人在工作的同时,身体需要支撑,椅子才会存在。事实上,如果观察它的本体不是人类(Homo Sapiens),它的定义可能会发生显著的变化:对于一个密度小于空气的智慧生物而言,椅子可能不比石头更需要一个独立的名词来描述。

https://a.1stdibscdn.com/archivesE/upload/1121189/f_68621331489212357969/6862133_l.jpg

这个定义从本质上说是归纳(inductive)的,它没有规定椅子不能有其它功能,也没有规定具备此功能的都是椅子,我们可以不开玩笑地说,将来完全可能出现具备动因(agency)的智能椅子,能够决定移动自己,至于它的动因是否以人类为最终受益人,那将取决于设计它的工程师了。

这种语义表达固然很有用,怎样从无组织数据(unstructured data)中提炼它是另外一个需要考虑的问题。Terry Winograd在1972年的程序 SHRDLU中展示了一个思路:在计算机模拟的世界中,语义信息本身就是透明的。有了几乎免费的语义数据,还需要特定的神经网络架构来学习这种信息。自然语言处理中常用的注意力(attention)机制,非常适合于这个应用场景。

SHRDLU

全局工作台理论(Global Workspace Theory(GWT))

Bernard Baars提出的这种意识架构(cognitive architecture),可以用“剧场隐喻”来描述:在任意时刻,大脑中只有少数几个区域(演员)处于活动状态(在舞台上),其它区域(观众)处于沉默状态,在潜意识中被动地接受信息(观看),还有一部分区域(导演、剧组等)也在潜意识中对思维起到调度作用。如果接受这个模型,意味着大脑内部的信息流通存在一个瓶颈,这个瓶颈对抽象的概念的形成是一个无形的压力:越是紧凑的语义表达,越容易为高级思维所用;同时,这些语义表达的准确性,又影响了本体的生存优势。这个观点,与人类大脑进化的历史是吻合的。

傩戏

语义变量的因果性与模块化知识

自然界中充满了复杂的系统,鱼群(fish school)的游动、细胞间通信(intercellular communication)等等,这些系统宏观上表现出的复杂行为,来自独立的个体与附近同伴之间的有限互动。人类也吸收了这些灵感,设计出了一些多动作者系统(multi-agent systems),如虫群机器人(swarm robots)等。然而主流机器学习还在使用全局的归纳偏置:一个庞大的神经网络被用来对整个系统进行建模,所有神经元之间都存在信息流通。
鱼群

由于缺乏前述的“瓶颈”机制,这种架构下训练出的模型可能把注意力放在与人类完全不同的点上。有从事对抗网络的研究人员发现,CNN分类器有时可能会用高频信号(例如动物毛发材质)去判断动物的类别,而不是去寻找人类心目中的有用特征(salient features)。 作为人类,在遇到一只从未见过的动物时,判断谁是猎物,是一件大事。动物有尖牙利齿,可能是掠食者;动物有角和蹄,也许可以捉来果腹。需要注意到的是,这里的“牙齿”并不是通过几百万张训练图片得出的珍贵权重,而是一个抽象的语义变量,它们的符号表达也许只有寥寥数字,但是足以使肾上腺素加速分泌,因为它们映射的目标是系统1与系统2认知合作的产物,是再真实不过的概念。我们从这个例子中可以看到,“尖牙利齿→危险”,似乎是一个放之四海而皆准的经验,无论天气,地理环境,时间等,都不影响这条经验的有效性,这种特质被称为独立机制(independent mechanisms)。这种独立性和前述的GWT理论相呼应:如果大脑同时只能对几个变量进行归纳,那么只有独立于绝大多数无关变量之外的经验才有实用价值。

暹罗猫?德国牧羊犬?

来自编程语言的启示

编程语言不但形式上与自然语言相近,它也用语义的形式代表了程序员的动因,比如:记录客观事实,展示数据,操作机器等等。编程语言中的一些设计,可能会给打造系统2认知带来一些帮助。

I thought of objects being like biological cells and/or individual computers on a network, only able to communicate with messages (so messaging came at the very beginning – it took a while to see how to do messaging in a programming language efficiently enough to be useful). -Alan Kay

Alan Kay,面向对象编程的发明者

  • 面向对象编程(Object-Oriented Programming):模块化、可重用的知识与OOP中的继承、实例化非常接近。
  • 递归(recursion):函数的自引用在编程中是一个强大的功能,然而,今天的神经网络还不能做到自引用。需要注意的是,Bengio没有提到Recurrent Neural Networks(RNN),显然,RNN代表的是信息的长期有效性,而不是语义上的递归。
  • 函数的命名参数(named arguments)与类型参数(typed arguments):Bahdanau的神经机器翻译方法中引入了“键-值”和“查询”的概念,个别神经元可以根据标签(键)去查询,以作为注意力(attention)的目标。神经网络的这种架构,与编程语言中的类型有异曲同工之妙,只不过不像类型的非此即彼,查询比类型更“软”一些,注意力机制下的匹配可以是一个介于0和1之间的连续值。

过去分词été的“注意力”在"was"和"signed"上

睿极智能

睿极智能是专业的移动视频与融合通信解决方案提供商,以视频为核心,以技术创新为持续驱动,致力于无线视频通信技术研究,面向全球提供领先的可视化管理云平台、高度集成的无线图传核心模组、多样化的无线智能视频终端产品以及专业的行业应用解决方案。

在睿极智能,我们密切关注⼈⼯智能领域的发展动向和前沿技术,并通过此博客为⼤家展现国内外最新的研究成果。⽂中如有谬误,望读者不吝赐教!