雪莉?陈哲(Shirley Zhe Chen)、迈克尔.J?卡法雷拉(Michael J. Cafarella)和艾唐?艾达尔(Eytan Adar)
密歇根大学
统计图表,或称之为数据驱动图表,是传递复杂信息的重要方法。对于很多技术性文档,图表可能是读者获取支持该文档结论的原始数据的唯一途径。
不幸的是,利用目前的检索系统搜索在线图表是非常困难的。基于文本的标准检索仅能检索到图表的附加文档。Web图像搜索引擎可能检索到一些图表,但是这通常是通过检查图像周围的文本内容实现的,因此会丢失很多图表内容的重要目的(Bhatia等人,2010年;Carberry等人,2006年)。即使图表中出现的文本的意义与其在图表结构中的几何位置密切相关,标题中数字的意义与x轴刻度上相同数字的意义可能也有很大的不同(贝尔丁,1983年)。
在利用SpringerImages(http://www.springerimages.com/)和Zanran(http://www.zanran.com/q/)这类数据搜索系统使数据驱动的图表更容易理解方面,有着不断增长的商业利益。虽然关于搜索和图像相关的主题的研究文献已经有很多了,但是对图表搜索自身的研究还几乎是空白。
在本文中,我们提出了一种专用于数据驱动图表的Web搜索引擎。和其它Web搜索引擎一样,我们的系统允许用户在文本框中输入关键词来获取目标的相关性排名列表。我们的系统解决了在其它搜索引擎中常见的多个问题,但是需要为数据驱动图表特别定制的解决方案。
图表语料库提取
获取一个Web文档中的文本通常像下载和解析一个HTML文件一样简单,但是与之相反,统计图表需要特殊的处理以提取有用的信息。它们嵌入在PDF文件中,难以将其与周围的文本区分开,嵌入在图表中的文本的风格是与其意义高度相关的,对于文本的确切作用非常敏感,而且,因为图表经常是高度工程化的文档的一个主要部分,它们可能在周围文本中有大量的数字引用形式的“隐含链接”。我们的图表提取器组件试图获取图表的所有相关文档,并且为每个字符串确定一个适当的语义标签(标题、y轴标签,等等)。
排名质量
所有的搜索引擎必须说明何如计算一个目标与搜索查询的相关性,但是计算图表的相关性可能会得出奇怪和意外的结果。我们使用从以前的步骤中提取的元数据来获得搜索质量,要比初级方法有明显的提高。
生成摘要
搜索到的内容的短小的总结,通常称之为摘要,允许用户在实际上选择内容查看之前,可以快速地浏览大量的搜索结果。传统的搜索引擎从原始文档中选取部分文本区域,而图形搜索引擎通常将原始图形缩小为较小的缩略图。这些方法都不能直接地应用于数据驱动的图表。显然,文本方法不能捕获到任何可视的元素。图1显示出图像缩放也是无效的:尽管照片和图像在较小尺寸上仍然是清晰的,但是图表很快变得难以理解。
本文介绍了用于搜索Web文档中数据驱动图表的一种搜索引擎DiagramFlyer。它解决了上述所有问题,实现了一种可以成功提取图表元数据来提供更高质量的排名和用于快速浏览结果的改进的图表“摘要”的搜索引擎。
我们提出的方法是通用的,可以用于在整个Web上发现的所有图表。但是,在我们目前的实验平台上,我们关注于从公共Web页面上发现和下载的关于互联网学术领域的PDF文件中提取的图表。我们生成的语料库包含了153,000个PDF文件和319,000个图表。我们发现DiagramFlyer和初级方法相比,在搜索质量上提高了52%。而且,我们发现DiagramFlyer的混合摘要产生器使用户得到的搜索结果要比标准的图像驱动摘要的准确率高出33%。我们还将DiagramFlyer的智能能力用于越来越多的域独立信息提取工作中—这种工作实现了从非结构化的文档中检索结构化的数据项,即使是主题(或者域)的数量无限时。 原件下载: |