
从我们婴儿期的“恒定物体存在”开始,我们知道与我们一起玩捉迷藏的成年人实际上并没有消失。他们只是躲在某个地方,只是被某物所阻挡。
“你想告诉我,当我们玩捉迷藏时,你没有去任何地方吗?”
我们还知道,由于“重力”,苹果只会从上到下掉落,而不会从底部到顶部上升。
在学习了无数类似的概念之后,我们形成了世界的广义预测模型。通过随后的成长和经验,通过对这些概念的应用效应的持续尝试和观察,我们不断建立假设并解释我们的行为如何改变这个世界。这构成了我们的常识。
常识是构成人类和动物智慧的主题。
有了常识,人类可以迅速学习很多新事物:一些牛的照片可以帮助孩子们知道动物的“牛”。有了常识,有些人可以在20个小时内学习开车。
但是,人工智能无法做到。在学习了几张母牛的照片后,它可能无法识别牛。它将输入数千个小时的驱动数据从人类到最佳的AI系统。仍然不可能实现完整的自动驾驶。
因为它没有常识。
常识是人工智能的暗物质。
Lecun在最新文章中这样描述了这一点。
近年来,AI取得了长足的进步,AI系统可以从大量认真标记的数据中学习。
这种“监督学习”在培训专业模型中表现出色,并且在训练的任务中经常表现出色。
但是,人工智能不能仅仅依靠监督学习来实现。
瓶颈已经从当前的监督学习中前进。当标记的数据不足时,我们如何学习新技能并完成多个任务?
在现实世界中,我们无法标记所有内容,并且某些任务没有用足够的数据标记,例如培训具有稀缺资源的语言翻译系统。
如果人工智能可以对培训数据集之外的现实世界产生更详细和更深入的理解,那么它将更接近人类智能的水平。
但是,人类认为理所当然的常识一直是人工智能的巨大挑战。
那么,我们如何从人工智能中获得“常识”呢?
在本文中,莱肯和伊桑·米斯拉(Ishan Misra)说,自我监督的学习(SSL)是获得AI背景知识和常识的最可能方法之一。
Facebook研究科学家Ishan Misra
自我监督的学习
自我监督的学习使AI系统能够从大量数据中学习,这对于识别和理解更微妙和稀有的世界代表模式很重要。
自我监督的学习一直在推进NLP方面,包括Collobert-Weston 2008模型,Word2Vec,Glove,FastText,以及最近Bert,Roberta,XLM-R等。仅以监督的方式接受训练。
Facebook的最新研究项目SEER使用SWAV和其他方法预先培训了一个由10亿个随机图像的大型网络,在各种视觉任务中达到了最高精度。
这一进步表明,自我监督的学习可以胜任复杂的CV任务以及现实世界的情况。
研究人员在Instagram上通过10亿张公共图像培训模型
本文还将重点介绍一些在存在不确定性,联合嵌入方法以及在人工智能系统方向上自我监督学习和推理的延迟可变体系结构的最有希望的新的基于能量的模型。
自学学习是一种预测性学习
自我监督的学习通常从数据本身获得监督信号,通常利用数据中的基础结构。自我监督学习的一般技术是预测从观察到的任何或未定义的输入部分中的任何未观察到的输入部分(或特征)。
例如,正如NLP中常见的那样,我们可以隐藏句子的一部分,并从其余单词中预测隐藏的单词。我们还可以从当前帧(观察到的数据)中预测视频中的过去或将来的帧(隐藏数据)。
由于自我监督的学习利用了数据本身的结构,因此它可以利用跨同时发生模式(例如视频和音频)以及大型数据集的各种监督信号,这些信号不是标签依赖性的。
在自我监督的学习中,对系统进行了训练,可以从可见的输入部分(绿色)预测隐藏的输入部分(灰色)
由于SSL监督信号,“自学学习”一词比以前的“无监督学习”更容易接受。
无监督的学习是一个模糊的定义和误导性的术语,这意味着学习根本不需要任何监督。
实际上,自我监督的学习并不是不监督的,因为它使用的反馈信号比标准监督学习和强化学习方法更多。
对语言和远见的自我监督学习
自我监督的学习对NLP产生了特别深远的影响,使我们能够在大型未标记的文本数据集上训练Bert,Roberta,XLM-R等模型,然后将这些模型用于下游任务。
这些模型在自我监督阶段进行了预训练,然后对特定任务进行了微调,例如对文本的主题进行分类。在自我监督的预训练阶段,系统显示了一个简短的文本(通常为1000个单词),其中一些单词被阻止或替换。
该系统经过训练,可以预测被阻塞或替换单词。在这样做的过程中,系统学会了表达文本的含义,以便它可以填充“正确”或在上下文中有意义的单词。
预测输入的缺失部分是SSL预训练的相对标准任务。要完成“()在萨凡纳()”上的句子,该系统必须知道狮子或猎豹可以追逐羚羊或野生肉,但是猫在“厨房”中而不是在“萨凡纳”中追逐老鼠。
由于训练,系统学会了表达单词的含义,单词的句法作用以及整个文本的含义。
但是,这些技术无法轻易扩展到CV等新领域。尽管早期结果是有希望的,但SSL尚未带来与计算机视觉有关的NLP中我们看到的相同的改进(尽管最终会改变)。
主要原因是在预测图像时比预测文本更难表达不确定性。当无法准确预测丢失的单词(是“刘”还是“猎豹”吗?)系统可以将词汇中的所有可能单词链接到得分或概率:“ liu”,“ cheetah”的得分和其他一些掠食者最高的,而词汇中的其他单词得分很低。
该量表的训练模型还需要一个模型体系结构,在运行时和内存都非常有效,而不会损害准确性。
幸运的是,最近在建筑设计领域进行的创新带来了一个新的名为Regnet的模型家族,完全满足了这些需求。
Regnet模型可以缩放到数十亿甚至数万亿个参数,并且可以优化以适应不同的运行时和内存限制。
但是,当我们预测视频中缺少帧或图像中缺少补丁时,我们不知道如何有效地表示不确定性。我们不能列出所有可能的视频帧,并将它们的每个视频框架与得分相关联,因为它们的数字是无限的。
尽管此问题限制了SSL的视觉性能改善,但新的SSL技术(例如SWAV)开始打破视觉任务的精确记录。
这是在SEER系统中最好证明的,该SEER系统使用了一个大型卷积网络,该网络训练有数十亿个例子。
预测中的模型不确定性
为了更好地理解这一挑战,我们首先需要了解预测的不确定性及其在自然语言处理中与CV相比的建模。在NLP中,预测缺失的单词涉及计算词汇中每个可能单词的预测分数。
尽管词汇本身很大,但预测缺失的单词涉及一些不确定性,但可以在词汇中生成所有可能单词的列表,并估算单词在该位置出现的可能性。
典型的机器学习系统可以将预测作为分类问题处理,并使用巨大的所谓软磁层层来计算每个结果的分数,从而将原始分数转换为可能单词的概率分布。
使用此技术,如果可能的结果数量有限,那么预测的不确定性就表现为所有可能结果的概率分布。
另一方面,在简历中,类似的任务是预测视频中的“缺失”帧,图像中缺少补丁或语音信号中缺少剪辑,这涉及对高维连续对象的预测,而不是离散的结果。 。有无数可能的视频帧可以合理地遵循给定的视频剪辑。
不可能明确表示所有可能的视频帧并将预测的分数与它们相关联。实际上,我们可能永远没有技术来代表高维连续空间中合适的概率分布,例如所有可能的视频帧集合。
这似乎是一个棘手的问题。
统一的自我实施方法的观点
一种方法是在基于能量的模型(EBM)的统一框架内考虑SSL。 EBM是一个可训练的系统,提供两个输入X和Y,告诉我们它们有多不兼容。
例如,X可以是一个简短的视频剪辑,而Y可以是另一个视频剪辑。该机器将告诉我们Y的良好延续程度,并表示X和Y之间的不兼容,该机器会产生一个称为能量的数字。如果能量低,则认为x和y兼容;如果能量很高,则认为它们是不兼容的。
基于能量的模型(EBM)测量观察到的值x与预测值y之间的兼容性。如果x和y兼容,则能量为小数。如果x和y不兼容,那么能量是大数量
训练能量模型由两个部分组成:(1)显示X和Y的兼容示例,并训练它以产生较低的能量,(2)找到一种方法来确保对于特定X,具有X不相容的Y值产生比x兼容y值更高的能量。第一部分很简单,第二部分很困难。
对于图像识别,我们的模型将两个图像x和y作为输入。如果X和Y是同一图像的略微变形版本,则训练该模型可以在其输出上产生低能。
例如,x可以是汽车的照片,y可以是同一辆汽车的照片,在一天中的不同时间略有不同的位置,因此y中的汽车在移动,旋转,大,小,小,并显示X中汽车的颜色和阴影略有不同。
关节嵌入,双神经网络
所谓的双神经网络或联合嵌入体系结构是一种特别适合这样做的深度学习体系结构。这个想法可以追溯到1990年代初和2000年代中期的杰夫·辛顿实验室和Yann Lecun团队的论文。
它已经被忽略了一段时间,但是自2019年底以来已经迎来了复兴。联合嵌入体系结构由同一网络的两个相同(或几乎相同的)副本组成。一个网络输入X和另一个网络输入y。
该网络产生称为X和Y的称为嵌入的输出向量。第三个模块,在头部连接的网络中,将一个能量计算为两个嵌入向量之间的距离。当模型显示同一图像的变形版本时,可以轻松调整网络的参数,以使其输出更接近。
这将确保网络将产生几乎相同的表示(或嵌入式)对象,而不论该对象的具体视图如何。
关节嵌入结构。顶部的函数C产生一个标量能,用于测量由两个具有相同参数的相同双网络产生的表示向量(嵌入式)之间的距离(w)。当X和Y是同一图像的不同版本时,系统将进行训练以产生低能,这迫使模型为这两个图像产生相似的嵌入向量。困难的部分是训练该模型以生成高能(即不同的嵌入)为不同的图像。
困难是确保网络在x和y是不同的图像时产生高能,即,即不同的嵌入向量。没有特定方法,两个网络都忽略了它们的输入,并且始终产生相同的输出嵌入。
这种现象称为崩溃。当崩溃发生时,不匹配的X和Y的能量不高于匹配X和Y的能量。
避免崩溃的技术有两种类型:比较方法和正则化方法。
基于能量的比较SSL
比较方法的基本思想是构造不兼容的x和y对,并调整模型的参数以使相应的输出能量更大。
使用对比方法训练能量模型,包括同时压缩训练集(用蓝点表示)的兼容能量(x,y)对的能量,并压缩以绿色点表示的精心选择的能量(x,y)对(x,y)(x,y)(用绿点表示)。在这个简单的示例中,X和Y都是标量,但实际上,X和Y可能是具有数百万维度的图像或视频。找到不兼容的XY对以适当的方式塑造能量是计算挑战性的,而且昂贵。
通过遮挡或替换某些输入单词训练NLP系统的方法属于对比类别。但是他们不采用联合嵌入结构。
相反,他们使用了预测结构,其中模型直接为y生成预测。从完整的文本y开始,然后将其分解,例如通过掩盖一些单词来产生观察x。
损坏的输入输入到一个大型神经网络中进行培训以重现原始文本y。重建未破坏自身的文本是一个低重建错误。重建损坏的文本可能会导致重建较大的错误。
如果将重建误差解释为能量,则它将具有理想的特征:正常文本,较低的能量;损坏的文本,更高的能量。
训练模型以恢复损坏的输入,这是一种称为DeNoising AutoCoder的技术。
尽管这个想法可以追溯到1980年代,但2008年,帕斯卡·文森特(Pascal Vincent)和蒙特利尔大学的其他想法重新提出了该模型,然后由科洛伯特(Collobert)和韦斯顿(Weston)引入NLP,后来通过出版的伯特论文(Bert Paper)流行。由Google。
面具语言模型是一个denoising自动编码器的示例,该模型本身就是比较自学学习的一个示例。变量y是文本片段; X是文本中某些单词的阻塞版本。该网络经过培训可以重建未腐败的文本
正如我们前面指出的那样,这种类型的预测体系结构只能为给定输入产生单个预测。因为该模型必须能够预测多个可能的结果,所以预测不是一组单词,而是一系列词汇中每个缺少单词位置的分数。
但是我们无法将此技巧与图像一起使用,因为我们无法枚举所有可能的图像。有解决这个问题的解决方案吗?简短的答案是否定的。
在这个方向上有很多有趣的想法,但是它们的结果不如关节嵌入结构那么好。一种有趣的方法是潜在变量预测体系结构。
潜在变量预测结构。给定观察x,该模型必须能够从图中的S形带符号中产生一组多个兼容性预测。由于潜在变量z在以灰色正方形表示的集合中变化,因此输出随组合理论的预测而变化
隐藏的变量预测模型包含一个附加的输入变量(z)。它被称为潜在,因为它的价值从未被观察到。
在训练有素的模型中,当隐藏变量在给定集中发生变化时,输出预测随着与输入x兼容的合理预测集变化。
但是比较方法存在一个主要问题:培训它们效率低下。在像图像这样的高维空间中,有很多方法可以使一个图像与另一个图像不同。
几乎不可能找到一组可以涵盖给定图像所有不同方面的对比图像。
用狮子座托尔斯泰(Leo Tolstoy)的“安娜·卡雷尼娜(Anna Karenina)”的名字说出一句话:“幸福的家庭是相似的,不幸的家庭有自己的不幸。”这似乎适用于任何类型的高维物体。
如果可以确保不兼容的能量高于兼容能量,并且不会明确添加许多不兼容的能量怎么办?
基于能量的非对比度SSL
目前,应用于联合嵌入体系结构的非对比度方法可能是SSL领域中最受欢迎的研究主题。在这个领域中,仍然有很多尚未探索,但它们似乎很有希望。
联合嵌入的非对比度方法包括DeepCluster,ClusterFit,Moco-V2,Swav,Simsiam,Barlow Twins,DeepMind's Byol,等等。
他们使用各种技术,例如计算虚拟目标嵌入(DeeperCluster,SWAV,SIMSIM)来进行类似的图像,或者通过体系结构或参数向量(Byol,Moco)使两个关节嵌入体系结构略有不同。 Barlow Twins试图最大程度地减少嵌入矢量各个组件之间的冗余。
从长远来看,也许一个更好的选择是设计一种使用隐藏变量预测模型的非对比度方法。主要障碍是他们需要一种方法来最大程度地减少潜在变量。
隐藏变量的集合可以改变限制低能输出的音量。通过最大程度地减少此卷,人们会自动以正确的方式形成能量。
这种方法的成功示例是变量自动编码器(VAE),其中隐藏变量是“模糊”,它限制了其功能。但是尚未证明VAE可以很好地表示下游视觉任务。
另一个成功的例子是稀疏建模,但其应用仅限于简单的体系结构。似乎没有完美的方法来限制隐藏变量的能力。
未来几年的挑战可能是为基于能量的隐藏变量模型设计非对比度方法,成功地生成了图像,视频,语音和其他信号的良好性能,并在下游监视任务中产生最佳性能,而无需大量标签数据。
促进视觉自我监督学习
最近,我们创建了一个新的十亿参数自我监督的简历模型SEER,已被证明能够有效地处理复杂的高维图像数据。
它基于适用于卷积网络体系结构(Convnet)的SWAV方法,可以通过大量随机图像进行训练,而无需任何元数据或注释。 Convnet足够大,可以从这些庞大且复杂的数据中捕获和学习所有视觉概念。
在预先培训十亿个随机,未标记和未经保证的公共Instagram图像并监督Imagenet的微调之后,Seer的表现优于最先进的最先进的自我统计系统,Imagenet上的准确率最高,达到84.2% 。
这些结果表明,我们可以将自我监督的学习范式转移到计算机视觉上。
在Facebook上使用自我监督的学习
在Facebook上,我们不仅通过基本的开放科学研究在许多领域中促进自我监督的学习技术,而且我们还将这项尖端的工作应用于生产,以快速提高产品中内容理解系统的准确性,并确保人们可以安全安全在我们的平台上。
像我们预先训练的语言模型XLM一样,自我监督的研究正在加速当今Facebook上的一些重要应用,包括主动检测仇恨言论。
我们已经部署了XLM-R,该模型利用我们的Roberta架构来改善我们在Facebook和Instagram上的多语言仇恨语音分类器。这将能够检测到仇恨言论,即使在培训数据很少的语言中也能够检测到仇恨言论。
近年来,我们受到监督的进步的启发,尽管这种方法可以帮助我们揭露人工智能的暗物质。自学是通往人类智力水平的道路的一步,但是这一步肯定有很多步骤。长期进步将是累积的。
这就是为什么我们致力于与更广泛的AI社区合作,以实现我们的目标,并有一天建造具有一定程度的人类智能的机器的原因。我们的研究已在顶级会议上公开发表。我们组织了研讨会并发布了图书馆,以帮助加速该领域的研究。
参考: