萨米·本戈欧1(Samy Bengio)
谷歌研究中心
摘要
图像注释是为新的图像提供文本语义的任务,方法是根据注释与给定的图像符合的程度对大量的可能注释进行排名。在大规模设置中,可能会有数百万图像需要处理,不同的注释可能达到上千万。为了完成这样的任务,我们提出构建一个所谓的嵌入空间,图像和注释都可以自动地投射到这个空间中。在这样的空间中,我们就可能找到与给定图像最接近的注释,或者是与给定注释类似的注释。我们甚至可以通过这些注释构建一个可视语义树,即概念(注释)在其可视特性方面相互之间有着怎样的类似。这种树将不同于WordNet(词汇网络)这样的没有考虑概念的视觉呈现的单纯的语义树。
简介
万维网作为一种分享信息的工具出现,使得可供机器学习的可能的数据集的规模大幅增大。Web页面上数以百万的图像有着成千上万的可能的注释,这些注释采用了便于通过查询检索引擎收集的HTML标签形式(Torralba等人,2008年)、www.flickr.com使用的标签形式,或者是www.image-net.org使用的人工组织的标记形式(邓等人,2009年)。因此我们需要用于图像注释的机器学习算法,能够扩展对这种数据的学习并且注释这种数据。这包括(i)可扩展的培训和测试次数以及(ii)可扩展的内存使用。在理想的情况下,至少是在注释时间上,我们倾向于可以适用于笔记本电脑的快速算法。对于很多最近提出的在小型数据集上测试过的模型,它们能否满足这些限制还不清楚。
在本文的第一部分,我们将研究实现这一目标的可能的方法。我们来考虑能够学习在低维度嵌入空间中共同表示图像和注释的模型。这种嵌入空间在测试时间上较快,因为低维度意味着注释排名的计算更快速。同时,低维度意味着较少的内存占用。为了使这种模型实现较好的性能,我们提出通过学习排名来训练其参数,优化排名靠前的注释,例如优化k的精度(p@k)。
在本文的第二部分,我们提出了一种新颖的算法来在多类别分类任务中改善测试时间,其中类别(或者标签)的数量非常巨大,即使是对类别数量使用线性算法也是不可能完成计算的。我们提出了一种在以前提出的共同嵌入空间中学习标签树结构的算法,通过优化总体的树损耗来为现有的树标记方法提供更高的精度。
1本文概述了以下论文:韦斯顿等人与萨米?本戈欧和尼古拉斯?Usunier(2010年),以及本戈欧等人(2010年)和杰森?韦斯顿与戴维?格朗吉耶。 原件下载: |