001 647 624 9243
0086 10-82115891, 0086 21-31200158

Chinese document translator Chinese Translation Samples More
· Current Status of Biofuel Product..
· Rail and Trucking Infrastructure
· Blender Pumps
· NORTHWEST REGION AND WESTERN REGI..
· NORTHEAST REGION AND CENTRAL EAST..
· Regional Status and Outlook on Ad..
· USDA Regional Analysis Assumption..
· Land Use Assumptions and Limitati..
· Feedstock Assumptions and Limitat..
· The Role of Corn Starch Ethanol
Chinese Translation Company Chinese Translation Achievements More
· French Chinese Translation
· Russian Chinese Translation
· German Chinese Translation
· Japanese Chinese Translation
· Spanish Chinese Translation
· Italian Chinese Translation
· Korean Chinese Translation
· Portuguese Chinese Translation
· Ukrainian Chinese Translation
· Arabic Chinese Translation
Chinese Translation Samples > Communications English to Chinese Sample

Advancing Natural Language Understanding with Collaboratively Generated Content_Frontiers of Engineering 2011:Reports on Leading-Edge Engineering from the 2011 Symposium_English to Chinese_Chinese Translation_20120027-8

利用合作产生的内容促进自然语言理解

 

叶夫根·加布里洛维奇(Evgeniy Gabrilovich)

雅虎研究中心
 
无所不在的对互联网的访问使得无数Web用户可以在线合作进行各种各样的活动。很多这种活动促使了大型知识库的建立,或是其最初的目标就是如此(例如维基百科),或是作为一种副产品(例如雅虎问答)。在本文章,我们将讨论如何利用合作产生的内容(CGC)资源中丰富的世界知识来发展计算机处理人类语言的能力。
在CGC资源出现之前,很多针对自然语言的计算方法都采用了WordNet电子词典(费尔鲍姆,1998年),该词典包含了语言学教授历经20多年精心编写的大约15万个单词。相比之下,协作进行的“维基词典”工程(www.wiktionary.org)仅英语词汇就达到了250万个。从1798年开始出版的大英百科全书大约包含65,000篇文章,而维基百科中英语文章已经超过了370万篇,以及超过200种的其它语言的1500万篇文章。拉马克里希南(Ramakrishnan)和汤姆金斯(Tomkins)(2007年)估计每天全世界产生的用户创作的内容达到了8-10G字节,而这个数量从那时至今已经有了相当大的增长。
合作产生内容的资源是一种使能资源
合作产生内容的资源中前所未有的信息量使得新的、知识丰富的自然语言处理方法成为可能,它和传统的基于词汇的方法相比要强大的多。在过去几年里在这个发展方向上取得了相当大的进步。这方面的例子包括在信息检索中明确地操作人类定义的概念及其用途来增大词汇袋(艾格奧茲(Egozi)等人,2011年),或者利用维基百科更好地进行词义消歧(布内斯库(Bunescu)和帕斯卡,2006年;库色赞(Cucerzan),2007年)。
使用CGC资源的一种方式是将它们当做额外的大型语料库来处理,例如,用来计算更加可靠的术语统计或者构建全面的词典或者地名辞典。它们也可以用于扩展现有的知识库,增加概念覆盖并且为以前列出的概念增加使用实例。某些CGC资源,例如维基百科,会报告其每一条内容的每一项变化,从而可以直接观察到文档的写作过程。丰富的编辑信息使我们可以提出更好的文档术语重要性模型,假定在文档生命周期的早期引入的术语更贴近其主题。最近提出的“修订历史分析法”(阿基等人,2010年)利用这种方法来提供有版本信息的文档的更准确的检索。
但是,更有前途的一种研究方向是从CGC资源的结构和内容中提取世界知识。这种知识可以超越传统的词汇库实现文本的新的表示法,并且允许在概念而不是单个词汇或者短语的层次上推理文本的意义。例如,考虑以下文本片段:“沃尔玛供应链实时运转。”不依赖大量的外部知识,对于计算机而言是难以理解这句话的意思的。“明确语义分析”(ESA)(加布里洛维奇和马克维奇,2009年)提供了一种向维基百科咨询以提取“山姆·沃尔顿”(沃尔玛创始人)、“西尔斯”、“塔吉特”和“艾伯森”(沃尔玛的主要竞争对手)、“食品和商业工人联盟”(一个试图将沃尔玛工人组织起来的工会)以及“超市”和“连锁店”(相关的一般概念)这类高度相关的概念的方法。可以说,通过咨询维基百科得到的见解最深刻的概念是“RFID”(无线射频识别),这是一种沃尔玛管理库存所广泛使用的技术。这些概念都没有在给定的文本片段中明确地提及,但是如果能够获得这些概念,将有助于理解这篇短文的意义。
在本文的剩余部分,我将首先讨论使用CGC资源来计算词汇的语义关联性,然后讨论信息检索这样的高层次应用。
计算词汇和文本的语义相似性
“猫”和“老鼠”是如何关联的?“准备一份手稿”和“写一篇文章”有什么关系?推理自然语言表达的语义关联性对人而言是再平常不过的事情了,但是对计算机而言却是困难的。人们不仅仅在文本词汇的层次上判断文本的关联性。词汇在操纵概念的更深层次上触发推理—人类组织和分享其知识的基本意义单元。因此,人类是在其背景知识和经验这个更大的上下文中解释文档中的具体措辞。
以前对语义关联性所做的工作是单纯基于没有利用背景知识的统计技术的(迪尔外斯特(Deerwester)等人,1990年),或是基于结合了有限的世界知识的词汇资源(Budanitsky和赫斯特(Hirst),2006年)。基于CGC的方法与前者的区别在于它们操纵的是人类明确的概念,而与后者的区别在于概念和背景知识的数量。计算语义关联性的一类新方法使用了类别层次这样的CGC资源结构(斯特鲁布和Ponzetto,2006年)或者概念之间的链接(米尔恩和威腾,2008年)。给定一对需要评估关联性的词汇,这些方法将它们映射到相关的概念,(例如维基百科中的文章),然后使用资源库的结构来计算这些概念之间的关联性。加布里洛维奇和马克维奇(2009年)提出了另一种方法,这种方法使用维基百科的全部内容,在维基百科的概念空间中表现词汇和文本的意义。他们的方法,即ESA,将文本表示为概念的加权向量。从而利用大量的维基百科概念依据紧密度对一个文本片段的意义进行解释。因此计算文本语义关联性就相当于在概念定义的空间中比较其向量,例如使用余弦度量。
随后提出的方法为以有效的方式结合基于结构和基于概念的方法提供了途径(叶等人,2009年)。Zesch等人超越维基百科(2008年)提出了一种利用维基词典计算词汇的语义关联性的方法。最近,Radinsky等人(2011年)提出了通过学习一段时间内词汇使用样式,利用暂时性信息来增加从CGC资源中提取的知识的方法。例如,想一下《纽约时报》150年来的存档。像“战争”和“和平”这两个词汇可能很少在同一篇文章中出现,但是在一段时间内它们的使用样式可能是类似的,这就使我们可以更好地判断它们的真实的关联性。
基于概念的信息检索
信息检索系统通常依赖于文本关键字来索引和检索文档。基于关键词的检索得到的结果可能是不准确和不完整的,因为在文档和查询中可能使用不同的关键词来描述相同的概念。而且,这些相关的关键词之间的关系可能是语义上的,而不是语法上的,因此掌握它需要利用人类广泛的世界知识。以前的方法已经试图通过利用人工构建的主题词表,依赖于术语同现数据,或者从语料库中提取潜在的词汇关系和概念来解决这些难题。在前一节引入的ESA在维基百科概念的高维度空间中表示文本的意义,和以前先进的算法相比,具有更好的性能。计算语义关联性的任务通常处理的是不存在重叠的短文本,与之相反的是信息检索通常处理的是较长的文档。值得注意的是,在这种情况下要取得最佳的结果需要利用概念扩展词汇库,而不能仅仅单独依赖于概念表示。
人们可能凭直觉期望特定领域的知识对于像医学这样的术语较多的领域的文本处理发挥关键作用。但是,如加布里洛维奇和马克维奇(2007年)所阐述的,在文本分类准确性方面实现了相当大的提高的是通用知识。在后续文章中(加布里洛维奇和马克维奇,2009年),作者也指出,随着可以获取更多的知识,利用更大的知识资源库(例如后来的维基百科快照)可以实现更好的性能。
Potthast等人(2008年)和Sorg以及Cimiano(2008年)各自提出了CL-ESA,即ESA的跨语言扩展。利用数量不断增长的维基百科文章之间可用的跨语言链接,这种方法允许跨不同的语言映射文本的意义。例如,这种方法允许以一种语言建立一个查询,然后用它来检索使用不同语言书写的文档。
结论
可以公开获取的合作产生内容资源编写了大量的与世界相关的人类知识。在本文中,我们阐述了这些资源的结构和内容可以用于利用不能从输入的文本中单独推断出来的信息增加自然语言文本的表示。
利用来自于CGC资源的知识,可以在一系列任务中实现两位数的精度改善,从计算词汇和文本的语义关联性到信息检索和分类。利用外源性知识的最重要方面是其处理同义词和多义词的能力,毫无疑问这是自然语言处理中两个最重要的问题。当两篇文本使用不同的词汇讨论相同的主题时,就存在前者这种问题,常规的词汇库表示法不能识别共性。另一方面,两篇包含相同多义词的文本未必就会讨论相同的主题,因为在两篇文本中相同的词汇可能有着不同的意义。我们相信基于概念的表示法能够成功,因为它们允许一般化和细化,部分地解决了同义词和多义词问题。
 
原件下载:
Chinese language translators Main Languages More
Reliable Cantonese Translations
Simplified Chinese Translation
Traditional Chinese Translation
English translation
German Translations
French
Chinese Professional translation Professional Scope More
· Multilingual Solurtions For ..
· Government And International..
· Energy Sector Multilingual S..
· Telecommunications Multiling..
· IT Multilingual Solutions
· Language Solutions For The M..
· Law Firms
· Banking and Finance
Simplified Chinese Translators Chinese Translators More
· Pierre NGOGEO. TAILORED TRAN..
· French Full Time Freelance tr..
· Native French Translator And ..
· English & French Language..
· Anna Fernandes, FREELANCE TRA..
Canada Address:46 Ealing Dr, North York, Toronto, ON,  M2L 2R5 Tel: 647 624 9243 Email: bjctn@hotmail.com
USA Add:450 N Atlantic Blvd Monterey Park, CA 91754, Tel:1 626 768 3096 Emailchinatranslation.net@gmail.com
Australia Chinese Translation: Tel:61 02 91885890 Email: 71301675@qq.com
Beijing Address: 4-1507,Sun Garden,Haidian District,Beijing.Tel:+86-10-82115892 Email: beijinghyw@gmail.com
Shanghai Address: 10-804, 443 GuMeiLu, Minhang Qu, Shanghai.Tel:0086-21-31200158 Email:shkehu@263.net

Copyright 2007-2016 www.chinatranslation.net All rights reserved