转自:腾讯视频、新智元
前言:当一个非常小的孩子看到图片时,她可以辨认出里面简单的要素:“猫”“书”“椅子”。现在,电脑也聪明得可以做同样的工作了。接下来呢?在这个令人震撼的演讲里,计算机视觉专家李飞飞介绍了这一技术的发展现状——包括她的团队为了教计算机理解图片所建立的一千五百万照片的数据库——而关键性的要点还不止于此。
视频内容翻译:
我先来给你们看点东西。
(视频)女孩:好吧,这是只猫,坐在床上。一个男孩摸着一头大象。那些人正准备登机。那是架大飞机。
李飞飞:这是一个三岁的小孩在讲述她从一系列照片里看到的东西。对这个世界,她也许还有很多要学的东西,但在一个重要的任务上,她已经是专家了:去理解她所看到的东西。我们的社会已经在科技上取得了前所未有的进步。我们把人送上月球,我们制造出可以与我们对话的手机,或者订制一个音乐电台,播放的全是我们喜欢的音乐。然而,哪怕是我们最先进的机器和电脑也会在这个问题上犯难。所以今天我在这里,向大家做个进度汇报:关于我们在计算机视觉方面最新的研究进展。这是计算机科学领域最前沿的、具有革命性潜力的科技。
是的,我们现在已经有了具备自动驾驶功能的原型车,但是如果没有敏锐的视觉,它们就不能真正区分出地上摆着的是一个压扁的纸袋,可以被轻易压过,还是一块相同体积的石头,应该避开。我们已经造出了超高清的相机,但我们仍然无法把这些画面传递给盲人。我们的无人机可以飞跃广阔的土地,却没有足够的视觉技术去帮我们追踪热带雨林的变化。安全摄像头到处都是,但当有孩子在泳池里溺水时它们无法向我们报警。照片和视频,已经成为全人类生活里不可缺少的部分。它们以极快的速度被创造出来,以至于没有任何人,或者团体,能够完全浏览这些内容,而你我正参与其中的这场TED,也为之添砖加瓦。直到现在,我们最先进的软件也依然为之犯难:该怎么理解和处理这些数量庞大的内容?所以换句话说,在作为集体的这个社会里,我们依然非常茫然,因为我们最智能的机器依然有视觉上的缺陷。
“为什么这么困难?”你也许会问。照相机可以像这样获得照片:它把采集到的光线转换成二维数字矩阵来存储——也就是“像素”,但这些仍然是死板的数字。它们自身并不携带任何意义。就像听到“和”“听”完全不同,“拍照”和“看”也完全不同。通过“看”,我们实际上是“理解”了这个画面。事实上,大自然经过了5亿4千万年的努力才完成了这个工作,而这努力中更多的部分是用在进化我们的大脑内用于视觉处理的器官,而不是眼睛本身。所以“视觉”从眼睛采集信息开始,但大脑才是它真正呈现意义的地方。
所以15年来,从我进入加州理工学院攻读Ph.D.到后来领导斯坦福大学的视觉实验室,我一直在和我的导师、合作者和学生们一起教计算机如何去“看”。我们的研究领域叫做计算机视觉与机器学习。这是AI(人工智能)领域的一个分支。最终,我们希望能教会机器像我们一样看见事物:识别物品、辨别不同的人、推断物体的立体形状、理解事物的关联、人的情绪、动作和意图。像你我一样,只凝视一个画面一眼就能理清整个故事中的人物、地点、事件。
实现这一目标的第一步是教计算机看到“对象”(物品),这是建造视觉世界的基石。在这个最简单的任务里,想象一下这个教学过程:给计算机看一些特定物品的训练图片,比如说猫,并让它从这些训练图片中,学习建立出一个模型来。这有多难呢?不管怎么说,一只猫只是一些形状和颜色拼凑起来的图案罢了,比如这个就是我们最初设计的抽象模型。我们用数学的语言,告诉计算机这种算法:“猫”有着圆脸、胖身子、两个尖尖的耳朵,还有一条长尾巴,这(算法)看上去挺好的。但如果遇到这样的猫呢?(笑)它整个蜷缩起来了。现在你不得不加入一些别的形状和视角来描述这个物品模型。但如果猫是藏起来的呢?再看看这些傻猫呢?你现在知道了吧。即使那些事物简单到只是一只家养的宠物,都可以呈现出无限种变化的外观模型,而这还只是“一个”对象的模型。
所以大概在8年前,一个非常简单、有冲击力的观察改变了我的想法。没有人教过婴儿怎么“看”,尤其是在他们还很小的时候。他们是从真实世界的经验和例子中学到这个的。如果你把孩子的眼睛都看作是生物照相机,那他们每毫秒就拍一张照。——这是眼球转动一次的平均时间。所以到3岁大的时候,一个孩子已经看过了上亿张的真实世界照片。这种“训练照片”的数量是非常大的。所以,与其孤立地