北京翻译公司 0086 10-82115891, 0086 21-31200158
001 647 624 9243, 0061 02 91885890
 
翻译样稿 更多>>
· 食品卫生例行检查与新食品卫...
· 网站翻译样稿:北方故事旅行社
· 加拿大旅游网站翻译:北极光...
· 英中旅游网站翻译样稿:在市...
· 北方故事旅行社北极光之旅网...
· 杰克 韦尔奇领导辞典图书翻...
· 脑机界面的进展_美国国家工...
· 脑机界面的进展_美国国家工...
· 中国人民解放军境内外练兵方...
· 中国人民解放军境内外练兵方...
小语种翻译业绩 更多>>
· 法语翻译业绩
· 德语翻译业绩
· 俄语翻译业绩
· 日语翻译业绩
· 西班牙语翻译业绩
· 韩语翻译业绩
· 意大利语翻译业绩
· 葡萄牙语翻译业绩
电子通信英译中翻译样稿
当前位置:首页 > 翻译样稿 > 电子通信英译中翻译样稿

内容的自动文本理解和文本质量_美国国家工程院2011年美国工程前沿研讨会上宣读的论文(节选)_中文译文_20120027-8

内容的自动文本理解和文本质量

艾妮·南科娃(Ani Nenkova)

宾夕法尼亚大学

 
阅读包括两种类型非常不同的语义处理。一种是理解文本所传达的信息,另一种是欣赏文本的风格—它写得如何好或者如何差。对人而言,文本的内容和修辞的质量是密不可分的。对于机器而言,对书面材料的健壮理解在很多情况下是可能的,但是对文本质量的研究还远远不够。这种不协调会带来很多麻烦,因为人们依赖机器定位和导航到信息源,并且越来越多地阅读机器产生的文本,例如机器翻译的内容或者做的文本总结。
在本报告中,我将讨论一些能够实现使用机器进行语义处理的简单朴素的直觉,以及一些在文本质量评估中新出现的方法。
文本语义(含义)
阅读和理解Web
在很多自动文本理解任务中,对语言语义的单一理解已经取得了成功。在特定的上下文中可能会出现某些词汇,这些上下文传递了与词汇类型、意义和含义相关的丰富的信息(哈里斯,1968年)。计算机只要简单地通过收集数千(数百)篇文本的统计数据,就可以在无需人工管理的情况下,学习大量的语义信息。
一个目标词汇的上下文,由在文本中经常而不是偶然在其附近出现的其它短语或者词汇组成,这种上下文可以通过大量的文本收集来累积。例如,词汇“茶”的上下文特征是[饮用:60,绿:55,奶:40,啜饮:30,享用:10...]。每个条目显示了一个词汇,在“茶”前后出现的五个词汇及其词汇配对出现的次数可以通过大量收集文本得出。只讨论上下文词汇出现的次数会使这种表示法更为方便,因为有各种标准的(几何)方法用于比较数值向量之间的距离。用这种方法,机器可以计算出任意两个词汇之间的相似性。
下面这个例子是Pantel和林(2002年)利用这种方法计算得出的15个与“酒”最为相似的词汇:
酒:啤酒、白葡萄酒、红葡萄酒、夏敦埃酒、香槟酒、水果、食品、咖啡、果汁、解百纳、白兰地、醋、黑皮诺、奶、伏特加酒,
这个列表可能看起来不会有什么直接的用处,但是如果有人要考虑“酒、啤酒、夏敦埃酒”这些词汇之间的相似性时,它就会给人深刻的印象。
在这些表示法基础之上,通过收集与词汇类似的词汇,使得自动地发现具有多种意义的词汇成为可能(工厂:(工厂、车间、设施、精炼厂)(灌木、地被植物、多年生植物、鳞茎)),查找同义词和反义词。为了辅助分析客户的评论,谷歌的研究人员建立了一个由将近20万个正面和负面词汇和短语组成的大型词库,通过其相似性确定了少量的预定义的正面或负面词汇,例如“非常好”、“太棒了”、“恶劣”、“差劲”。在自动建立的词库中,正面的短语有“可爱”、“极好”、“极品”、“入口即化”;负面短语的例子包括“不佳”、“糟糕的”、“不再联系”、“不舒服”(Velikovich等人,2010年)。
研究语义处理的另外一种方法是利用某些上下文的确定意义。例如类似于“像Y这样的X”这种模式,如果经常在文本中出现,那么很可能表示“Y是X的一种”(例如“像解百纳和黑皮诺这样的红葡萄酒…”)。同样,像“X的市长”这样的短语就充分表明“X”是一个城市。NELL(永远不停止语言的学习,http://rtw.ml.cmu.edu/rtw/)是一个不断地学习一元和二元谓词的系统,一元和二元谓词对应于“(费城)是城市”和“(乔治·哈里森,吉他)演奏乐器”这样的类别和关系。每个主题的每种类型的学习在最低水平的监管下开始,由研究人员以含有一种关系的类别实例或者实体的几个例子的形式给出。然后该系统开始进行无限的循环来搜索包含例子的web页面,查找通常与例子同时出现的短语模式,选择能够以较高概率指示谓词的最佳模式,然后将模式应用到新的文本中来发现哪种谓词是正确的。这种方法已经有多种样式被开发出来用于机器理解,进行搜索和回答问题(艾齐厄尼等人,2008年,帕斯卡等人,2006年)。
阅读和理解文本
到目前为止我已经讨论的语义处理中,计算机都要带着学习词汇表示法的目的阅读大量的文本文档,给出一个具有正面或者负面含义的短语词库,或者学习类别实例和关系。对于计算机而言,更困难的任务是理解一篇特定的文本。
与单一文本的计算机处理相关的众多传统研究都是以监督技术为基础的。研究人员付出了巨大的努力来收集人工注解标记的正面和负面的偏好语义区分的例子。例如,他们可以将一个词汇、一个词性标记出不同的感觉,或者将“罗杰·费德勒”标记为一个人,将“保加利亚”标记为一个国家。那么描述了偏好类别的上下文的特性将可以从文本中提取出来,而一个统计分类器将利用正面和负面的例子来结合特性,并且预测未看过的文本中相同类型的信息。最近,已经可以清楚地看到计算机积累知识的这种无监管的方法和对大量文本的统计以及有监管的方法可以有效地结合起来,从而实现更好的语义处理系统。
在阅读一篇特定的文本时,计算机也需要通过“他/他的”、“她/她的”和“它/他的”这样的代词来解析文档中的实体指的是什么。系统虽然还远远算不算完美,但是在执行这种任务方面做得还不错。通常代词出现在靠近名词短语的文本中,例如“教授准备了他的讲座”,但是在其它情况下需要性别和数量信息来准确地解析代词,例如“约翰告诉玛丽他已经预定了旅程”。机器可以相当准确地学习姓名和名词可能的性别,然后再阅读大量的文本并且收集共同出现的统计数据。通过数以千计的文档收集的一个给定性别和直接前置的名词或者尊称和姓名共同出现的统计数据(约翰·布莱克先生,玛丽·怀特女士),对于猜测名词可能的性别具有非常好的作用(伯斯马,2005年)。
文本质量(风格)
和掌握语义相比,文本质量或者风格的自动评估是困难的多的任务,至少可以说研究的要少得多。在我的实验室中已经为开发文本质量模型做了大量的工作。我将讨论两项取得成功的努力:在机器翻译中预测一般和特定的句子以及自动评估句子的流畅性和文本摘要中的摘要相关性。
一篇写得很好的文本中,一般综述性的语句和特别详细的句子是缺一不可的。如果文本中一般综述性的语句过多,给人的感觉是信息量不足,而如果特异性的句子过多,又会使读者迷惑。
为了训练出一个分类器,我们利用了包含篇章标注在内的《华尔街日报》的100万个词汇资源(路易斯和南科娃,2011a版)。此外,篇章标注说明了文本中两个相邻的句子相关的方式。可以是两个语句之间内在关系的比较(约翰通常是守时的。玛丽常常迟到。),或者是一种偶然(因果)关系(我弄伤了我的脚。我今天晚上不能去跳舞了。),或者是暂时性的关系。
在语料库中注释的语篇关系之一是实例化。它存在于两个相邻的句子之间,其中第二个句子为第一个句子中的信息给出了具体的实例,例如“他非常聪明。他五分钟就解决了问题”。在所有的实例化关系的例子中,我们认为第一句是一般语句,而第二句是具体的语句。我们根据直觉,计算了大量的能够区分两个类别的特性。我们期望意见的表达或者评价性的语句能够将一般语句和不常使用的、可以在特异语句中解释或者阐明的语言区分开来。这些特性包括:
●          句子的长度;
●          观点或者从现有词典中导出的主观词汇的数量;
●          句子中词汇的特异性,从《纽约时报》一年中包含该词汇的部分文章中的语料库统计中得出。包含该词汇的文档数量越少,说明这个词汇越特异;
●          对数量和人物、公司以及地理位置的论述;这样的论述可以自动检测;
●          与形容词、副词、动词和介词相关的语法特性;
●          通过对《纽约时报》一年中刊载的文章的计算得出一个、两个或者三个连续词汇的句子的可能性。
一个逻辑回归分类器,在经过2,800个实例化关系的一般和特殊语句例子的培训之后,可以非常好地学会预测差别。对于一组完全独立的新闻文章,要求五个人将每个语句标记为一般或者特殊语句。对于五名注解者意见一致的分类,分类器正确预测分类的准确率为95%。对于五名注解者中有四人意见一致的分类,分类器的准确率为85%。对于所有的例子,人们感觉难以根据一般和特殊进行分类的语句,预测的准确率为75%。而且,分类器的置信度是与注解者的一致性高度相关的,所以就有可能确定哪些语句不能确定地归为某个分类。分类器给出的一个语句的特异性程度准确地指出了人们将如何感知一个语句。
对大量的新闻文章的自动或人工摘要应用一般或特异分类器,结果表明机器摘要过于特异,并且得到了改善系统性能的方法(路易斯和南科娃,2011b版)。
词汇共同出现的统计和主观语言在自动区别内在关系比较、偶然性以及暂时性语篇关系方面也取得了成功(Pitler等人,2009年)。这种关系的确认不仅是文本的语义处理所需要的,也是文本质量的强健评估所要求的(Pitler和南科娃,2008年)。最后,对类型、长度和动词、名词以及介词短语之间的距离,和词汇出现以及共同出现的可能性的统计,对于摘要的感知质量具有很高的预测性(南科娃等人,2010年)

 
原件下载:
翻译语种 更多>>
英语翻译 德语翻译 法语翻译
俄语翻译 日语翻译 韩语翻译
西班牙语 葡萄牙语 荷兰语翻译
乌克兰语 意大利语 波兰语翻译
丹麦语翻译 希腊语翻译 泰语翻译
瑞典语翻译 越南语翻译 阿拉伯语
专业范围 更多>>
· 安全环保 · 电力能源 · 银行保险
· 法学翻译 · 天文地理 · 钢铁冶金
· 航空航天 · 道路桥梁 · 地质采矿
· 建筑工程 · 金融财会 · 经济管理
· 交通运输 · 仪器仪表 · 医疗器械
· 医药卫生 · 石油化工 · 机械电子
小语种译员 更多>>
· 黄女士 法国佩皮尼昂大学硕...
· 法语翻译 核电专业法语翻译...
· 熊先生 法国某大学市场营销...
· 陆先生 国际经济与贸易本科...
· 宁先生 法国南特大学 工商...
北京翻译公司 地址:海淀区太阳园4号楼1507室 电话:010-82115891 82115892 bjhyw@263.net QQ:800022641
上海翻译公司 地址:上海市闵行区古美路443弄10号楼804 电话:021-31200158 shkehu@263.net, QQ:390645976
美国翻译公司 地址:450 N Atlantic Blvd Monterey Park, CA 91754, Tel:1 626 768 3096 信箱chinatranslation.net@gmail.com
加拿大翻译公司 地址:46 Ealing Dr, North York, Toronto, ON, M2L 2R5 电话:647 624 9243 bjctn@vip.sina.com
太原翻译公司 地址:太原市万柏林区迎泽西大街奥林匹克花园7D202 电话:15034183909 Email:tykehu@163.com
澳大利亚Chinese Translation客服电话:61 02 91885890,国内其他地区统一电话:950 404 80511  
京ICP备05038718号-3
北京翻译公司