Automatic Text Understanding of Content and Text Quality_Frontiers of Engineering 2011:Reports on Leading-Edge Engineering from the 2011 Symposium_English to Chinese_Chinese Translation_20120027-8 - Beijing (Shanghai) HuayiNet Translation Company

内容的自动文本理解和文本质量

艾妮·南科娃（Ani Nenkova）

宾夕法尼亚大学

阅读包括两种类型非常不同的语义处理。一种是理解文本所传达的信息，另一种是欣赏文本的风格—它写得如何好或者如何差。对人而言，文本的内容和修辞的质量是密不可分的。对于机器而言，对书面材料的健壮理解在很多情况下是可能的，但是对文本质量的研究还远远不够。这种不协调会带来很多麻烦，因为人们依赖机器定位和导航到信息源，并且越来越多地阅读机器产生的文本，例如机器翻译的内容或者做的文本总结。

在本报告中，我将讨论一些能够实现使用机器进行语义处理的简单朴素的直觉，以及一些在文本质量评估中新出现的方法。

文本语义（含义）

阅读和理解Web

在很多自动文本理解任务中，对语言语义的单一理解已经取得了成功。在特定的上下文中可能会出现某些词汇，这些上下文传递了与词汇类型、意义和含义相关的丰富的信息（哈里斯，1968年）。计算机只要简单地通过收集数千（数百）篇文本的统计数据，就可以在无需人工管理的情况下，学习大量的语义信息。

一个目标词汇的上下文，由在文本中经常而不是偶然在其附近出现的其它短语或者词汇组成，这种上下文可以通过大量的文本收集来累积。例如，词汇“茶”的上下文特征是[饮用：60，绿：55，奶：40，啜饮：30，享用：10...]。每个条目显示了一个词汇，在“茶”前后出现的五个词汇及其词汇配对出现的次数可以通过大量收集文本得出。只讨论上下文词汇出现的次数会使这种表示法更为方便，因为有各种标准的（几何）方法用于比较数值向量之间的距离。用这种方法，机器可以计算出任意两个词汇之间的相似性。

下面这个例子是Pantel和林（2002年）利用这种方法计算得出的15个与“酒”最为相似的词汇：

酒：啤酒、白葡萄酒、红葡萄酒、夏敦埃酒、香槟酒、水果、食品、咖啡、果汁、解百纳、白兰地、醋、黑皮诺、奶、伏特加酒，

这个列表可能看起来不会有什么直接的用处，但是如果有人要考虑“酒、啤酒、夏敦埃酒”这些词汇之间的相似性时，它就会给人深刻的印象。

在这些表示法基础之上，通过收集与词汇类似的词汇，使得自动地发现具有多种意义的词汇成为可能（工厂：（工厂、车间、设施、精炼厂）（灌木、地被植物、多年生植物、鳞茎）），查找同义词和反义词。为了辅助分析客户的评论，谷歌的研究人员建立了一个由将近20万个正面和负面词汇和短语组成的大型词库，通过其相似性确定了少量的预定义的正面或负面词汇，例如“非常好”、“太棒了”、“恶劣”、“差劲”。在自动建立的词库中，正面的短语有“可爱”、“极好”、“极品”、“入口即化”；负面短语的例子包括“不佳”、“糟糕的”、“不再联系”、“不舒服”（Velikovich等人，2010年）。

研究语义处理的另外一种方法是利用某些上下文的确定意义。例如类似于“像Y这样的X”这种模式，如果经常在文本中出现，那么很可能表示“Y是X的一种”（例如“像解百纳和黑皮诺这样的红葡萄酒…”）。同样，像“X的市长”这样的短语就充分表明“X”是一个城市。NELL（永远不停止语言的学习，http：//rtw.ml.cmu.edu/rtw/）是一个不断地学习一元和二元谓词的系统，一元和二元谓词对应于“（费城）是城市”和“（乔治·哈里森，吉他）演奏乐器”这样的类别和关系。每个主题的每种类型的学习在最低水平的监管下开始，由研究人员以含有一种关系的类别实例或者实体的几个例子的形式给出。然后该系统开始进行无限的循环来搜索包含例子的web页面，查找通常与例子同时出现的短语模式，选择能够以较高概率指示谓词的最佳模式，然后将模式应用到新的文本中来发现哪种谓词是正确的。这种方法已经有多种样式被开发出来用于机器理解，进行搜索和回答问题（艾齐厄尼等人，2008年，帕斯卡等人，2006年）。

阅读和理解文本

到目前为止我已经讨论的语义处理中，计算机都要带着学习词汇表示法的目的阅读大量的文本文档，给出一个具有正面或者负面含义的短语词库，或者学习类别实例和关系。对于计算机而言，更困难的任务是理解一篇特定的文本。

与单一文本的计算机处理相关的众多传统研究都是以监督技术为基础的。研究人员付出了巨大的努力来收集人工注解标记的正面和负面的偏好语义区分的例子。例如，他们可以将一个词汇、一个词性标记出不同的感觉，或者将“罗杰·费德勒”标记为一个人，将“保加利亚”标记为一个国家。那么描述了偏好类别的上下文的特性将可以从文本中提取出来，而一个统计分类器将利用正面和负面的例子来结合特性，并且预测未看过的文本中相同类型的信息。最近，已经可以清楚地看到计算机积累知识的这种无监管的方法和对大量文本的统计以及有监管的方法可以有效地结合起来，从而实现更好的语义处理系统。

在阅读一篇特定的文本时，计算机也需要通过“他/他的”、“她/她的”和“它/他的”这样的代词来解析文档中的实体指的是什么。系统虽然还远远算不算完美，但是在执行这种任务方面做得还不错。通常代词出现在靠近名词短语的文本中，例如“教授准备了他的讲座”，但是在其它情况下需要性别和数量信息来准确地解析代词，例如“约翰告诉玛丽他已经预定了旅程”。机器可以相当准确地学习姓名和名词可能的性别，然后再阅读大量的文本并且收集共同出现的统计数据。通过数以千计的文档收集的一个给定性别和直接前置的名词或者尊称和姓名共同出现的统计数据（约翰·布莱克先生，玛丽·怀特女士），对于猜测名词可能的性别具有非常好的作用（伯斯马，2005年）。

文本质量（风格）

和掌握语义相比，文本质量或者风格的自动评估是困难的多的任务，至少可以说研究的要少得多。在我的实验室中已经为开发文本质量模型做了大量的工作。我将讨论两项取得成功的努力：在机器翻译中预测一般和特定的句子以及自动评估句子的流畅性和文本摘要中的摘要相关性。

一篇写得很好的文本中，一般综述性的语句和特别详细的句子是缺一不可的。如果文本中一般综述性的语句过多，给人的感觉是信息量不足，而如果特异性的句子过多，又会使读者迷惑。

为了训练出一个分类器，我们利用了包含篇章标注在内的《华尔街日报》的100万个词汇资源（路易斯和南科娃，2011a版）。此外，篇章标注说明了文本中两个相邻的句子相关的方式。可以是两个语句之间内在关系的比较（约翰通常是守时的。玛丽常常迟到。），或者是一种偶然（因果）关系（我弄伤了我的脚。我今天晚上不能去跳舞了。），或者是暂时性的关系。

在语料库中注释的语篇关系之一是实例化。它存在于两个相邻的句子之间，其中第二个句子为第一个句子中的信息给出了具体的实例，例如“他非常聪明。他五分钟就解决了问题”。在所有的实例化关系的例子中，我们认为第一句是一般语句，而第二句是具体的语句。我们根据直觉，计算了大量的能够区分两个类别的特性。我们期望意见的表达或者评价性的语句能够将一般语句和不常使用的、可以在特异语句中解释或者阐明的语言区分开来。这些特性包括：

● 句子的长度；

● 观点或者从现有词典中导出的主观词汇的数量；

● 句子中词汇的特异性，从《纽约时报》一年中包含该词汇的部分文章中的语料库统计中得出。包含该词汇的文档数量越少，说明这个词汇越特异；

● 对数量和人物、公司以及地理位置的论述；这样的论述可以自动检测；

● 与形容词、副词、动词和介词相关的语法特性；

● 通过对《纽约时报》一年中刊载的文章的计算得出一个、两个或者三个连续词汇的句子的可能性。

一个逻辑回归分类器，在经过2,800个实例化关系的一般和特殊语句例子的培训之后，可以非常好地学会预测差别。对于一组完全独立的新闻文章，要求五个人将每个语句标记为一般或者特殊语句。对于五名注解者意见一致的分类，分类器正确预测分类的准确率为95%。对于五名注解者中有四人意见一致的分类，分类器的准确率为85%。对于所有的例子，人们感觉难以根据一般和特殊进行分类的语句，预测的准确率为75%。而且，分类器的置信度是与注解者的一致性高度相关的，所以就有可能确定哪些语句不能确定地归为某个分类。分类器给出的一个语句的特异性程度准确地指出了人们将如何感知一个语句。

对大量的新闻文章的自动或人工摘要应用一般或特异分类器，结果表明机器摘要过于特异，并且得到了改善系统性能的方法（路易斯和南科娃，2011b版）。

词汇共同出现的统计和主观语言在自动区别内在关系比较、偶然性以及暂时性语篇关系方面也取得了成功（Pitler等人，2009年）。这种关系的确认不仅是文本的语义处理所需要的，也是文本质量的强健评估所要求的（Pitler和南科娃，2008年）。最后，对类型、长度和动词、名词以及介词短语之间的距离，和词汇出现以及共同出现的可能性的统计，对于摘要的感知质量具有很高的预测性（南科娃等人，2010年）