语义处理
亚历山大·库兹马诺维奇(Aleksandar Kuzmanovic)
西北大学
苏拔玛亚·阿蒙格(Amarnag Subramanya)
谷歌研究中心
语义学是研究含义的学科。大量的自然发生的现象都遵循一定的语义规则,例如,人类语言的语义、与一幅景象图像相关的语义,以及自然语言的语义。在博客或者评论中推测作者的情感、通过收集文档、图像和视频进行搜索,以及将文本从一种语言翻译成为另一种语言,以上这些高级的信息理解任务需要准确的语义处理。例如,如果不借助基于语义的推理,将难以从“在其它影片失败的时候,《埃及王子》却取得了成功”这句话中推断出其表达的积极的情感。
在最近几年里,人类在互联网上创造的内容已经呈现爆炸式的增长,同时用户在互联网上进行其日常活动的次数也成指数增长。据估算,我们每天在互联网上大约会发表16亿篇博客、600亿封电子邮件、200万张照片,以及20万个视频。现在,用户可以通过互联网阅读新闻、收看电视节目,以及与其朋友和家人保持联系,但是用户对于基于互联网的应用的需求仍然超越了以往。满足这种不断增长的需求,需要对万维网上的所有内容有更深入的语义理解。本次会议关注于自然语言和图像的语义处理算法,因为它们构成了互联网上的大部分数据。
对于自然语言,有多种不同层次的语义处理,从单词和句子层次的分析,到更为复杂的论述分析。理解单词的意义以及单词之间的关系属于前者,而推断代词(例如“他”或“她”)以及推断一个段落所表达的观点,则属于后者。艾妮 ·南科娃(Ani Nenkova)(宾夕法尼亚大学)首先对已经成功地应用于自动文本理解的一些技术进行了研究,然后将指出一些尚未解决的问题。她还将阐述文本质量对于语义处理算法的影响。
互联网应用的发展促使了维基百科这样的大型知识体的出现。此外,万维网的社交功能也带来了用户合作产生的内容(例如雅虎问答)。对这类知识来源的准确的语义处理可以形成知识丰富的方法来进行信息访问,远远地超越了传统的基于单词的方法。 叶夫根·加布里洛维奇(Evgeniy Gabrilovich)(雅虎研究中心)说明了如何使用合作产生的内容来表示自然语言的语义,并且提出了这种表示法所实现的新的信息检索算法。
图像和视频构成了互联网总体体验的主要部分。对图像和视频的准确的语义理解可以促进更快和更好地搜索。萨米·本戈欧(Samy Bengio)(谷歌研究中心)讨论了学习如何在共同空间中“嵌入”图像及其说明(标签或者注释)的算法。这种空间可以用于查找距离给定图像最近的注释。他演示了如何通过这种注释构建一个“可视语义”树。
表格、平面图、图表以及图解是万维网页面上另一种表达信息的方法。这些数据驱动的图像都是复杂的对象,并且与其周围的文本有着密切的关系。例如,它们可以用于阐明文本的结论或者提供额外的数据。不幸的是,先进的算法以处理图片或者插图的方法来处理图解。结果,搜索相关的在线图解得到的结果质量常常非常差。迈克尔·卡法雷拉(Michael Cafarella)(密歇根大学)全面阐述了平面图、图表以及图解的智能语义处理算法。他还讨论了总结概括这类数据以便于终端用户使用的方法。
原件下载: |