的方针是类现实问题若是智能问答系统,对具有预定义谜底模式的搜刮引擎的查询则能够利用一组简单的映照法则来生成。环境下在这种,是合适的词袋模子,的响应速度[17而且能够供给最快,4]1。
含现实消息的文档时当问题文档素质上包,案类型捕捉相当浅的语义似乎就足够了问题和潜在谜底的暗示基于期望的答,能够提高机能谜底的冗余也。方面另一,注释为什么发生某些事务若是文档包含过程内容或,于在文档中识别很主要则事务和话语布局对,何”和“为什么”问题如许就能够回覆“如。光鲜明显的时空消息若是文档包含,及时空束缚的问题则很可能会提出涉,语义处置[125再次需要恰当的,0]4。环境下在这些,检索模子似乎是最有前途的天然言语的逻辑暗示和逻辑。
单词的调集词袋就是,寄义的单词去除可能将不暗示,布局、语法和词序它不考虑文本的。
ath如XP,询言语来处置来自XML(可扩展标识表记标帜言语)文档的数据[38]XML Path Language和XQuery之类的查。号法则[37、101]和映照[110]将查询翻译为布局化言语的示例利用一组符。
阐发中形态,能有协助词干化可,到谜底的几率它可能提拔找,语中的消息量但它会削减术。
案类型供给了语义类别标签识别问题类型和期望的答,能够在局部(例如该语义类别标签,文档句子进行当地估量仅基于疑问词)和候选。过于严酷这种方式,题的回覆过程可能会误导问。0]所示如[13,更完整的语义标识表记标帜能够提高机能对完整问题和候选谜底句子进行。案例)的上下文平分配的标签是在情境(也称为,要动词暗示或挪用凡是由句子中的主。或曰词-自变量布局句子能够暗示为框架,:谁在何时、何地对谁做了什么描述形成语义脚色的一般环境,种目标出于何,么体例通过什。
单的方式是词袋模子句子布局检测最简,类的词性标识表记标帜、检测根本名词和动词短语的短语分块实在语法阐发中利用的方式还包罗:用于检测句法词。间建立句子的依存关系树而发生的其他基于阐发的方式也能够利用通过将句子分化成其构成部门并在它们之。
式设置中在交互,问题来给出谜底的反馈用户能够通过提出其他。环境下在这种,何彼此联系关系很是主要检测问题中的数据如。
系统的奇特尺度框架贫乏能够比力所有,验复制的难度缺乏系统和实,描述符的本体论方式的数量能够定义问题和谜底的语义,处置使命使现无方法的评估以及天然言语引入的错误,阐发变得坚苦比力和错误。是但,些结论性发觉我们列出了一。
相关预期作为谜底的消息类型的其他消息天然言语问题或查询语句为我们供给了。如例,频中寻找一小我我们可能正在视,司的名称一个公,点地,期日,小我的照片以至是一。案候选者的对应语义类别已成为问题解答中的遍及做法主动识别问题中期望谜底的语义类别以及消息源中答。ehnert 的工作问题分类能够追溯到L,本的概念性语义问题类后者定义了 13个基,果前提包罗因,取向方针,力能,然成果因果必,证验,求等请。的是倒霉,中的“为什么”问题外除了需要进行QA研究,深切的语义阐发因为需要进行,究实施这种分类因而很少有研。估和使命设置的激励受晚期TREC评,为类现实问题被分,表列,义定,设假,果因,确认查询过程和。
所述如上,阶逻辑暗示[15]问题和数据能够一。种变体形式引入了一,暗示天然言语陈述[16]意义暗示言语(MRL)来。形式主义来扩展一阶谓词演算它通过遵照基于格框架的语法。问关系数据库(请参阅上一节和[8])MRL已用于通过典型的SQL查询访,形式(更具体而言为谓词-参数布局)的根本 但它也用作将查询或文档语句转换为逻辑暗示。
检索中在消息,义词扩展或替代查询的保守有一种利用相关术语或同。相关消息来加强查询目标是通过附加的,索的精确性从而提高搜。种体例通过这,容类似的各类表述我们还能够应对内,索的查全率以提高检。消息检索中在一般的,环节字或术语来扩展查询凡是通过添加,获得的环节字或术语例如通过主题签名,]中所述如[65,术将与某个主题相关的所有术语分组这些环节字或术语基于统计联系关系技。拜候场景相关的单词表一个示例可能是与餐厅,单菜,务员服,单订,餐进,款付,费小。之下比拟,回覆中在问题,正改写查询的趋向我们看到了一种真。二十年中在过去的,界的研究范畴[71释义不断是消息检索,541,0]12。
的部门中在前面,查询的分歧处置体例我们切磋了天然言语。文档或消息的天然言语的响应处置我们曾经查抄了从其他媒体提取的。体例起头从言语,到高级关系我们已成长。常通,以达到双重目标消息提取手艺可。先首,关系能够强制实施其他束缚语义上的以至句法上的依存,在消息检索中获得满足而所有这些束缚都必需。消息更切确如许能够使。二第,述平分配的实体及其关系的分类是细粒度的若是在查询语句和消息对象的文档或索引描,单词或其他低层特征对象则它们能够取代多媒体。此因,检索成果的召回性我们能够改善消息,更为笼统由于搜刮,些单词)能够被更笼统的概念所代替而且初级特征(例如文本主体中的某,以忽略因而可。
的估量是任何问题回覆系统的两个根基构成部门[84]对预期谜底类型以及问题和候选谜底中消息的语义类别。深切的语义阐发对消息源进行更,标识表记标帜和语篇阐发例如语义脚色,回覆的机能程度能够提高问题,项耗时的使命但这凡是是一。域的问题解答对于现实开放,线消息冗余能够操纵在,能无法取得成功如许的阐发可。方面另一,和复杂的问题对于更具体,是系统的环节功能更深切的语义阐发。今如,仅应采用一个或两个检索模子一个完满的问题回覆系统不,系统要求还应按照,问题类型所提出的,数据类型所查询的,前提利用一组模子界面类型和其他。用模子和手艺来回覆问题该当很是细心地考虑使。题的模子和手艺时选择用于回覆问,以下方面必需考虑:
的文本数据转换为布局化数据库条目标手艺消息提取的广漠范畴供给了将文档中找到。好的开辟(例如[24、57、150])特别是用于实体关系提取的方式已获得很。
头提到的如本文开,间内满足消息需求的普遍用户开辟的开放域系统是为需要在很是短的时。之下比拟,定的辞书或特定的语义暗示受限域QA用户能够利用特,备好较长的响应时间而且此类用户已准。统要求按照系,对谜底感乐趣当用户不只,和部门谜底感乐趣时并且对系统的相信度,手艺进行查询拜访能够利用问答,小我材料来定制谜底[ 100从而供给多个谜底或按照用户的,4]11。
低冗余度为方针若是问答系统以,问题或数据源针对复杂的,(更普遍的EATs笼盖则需要更深切的语义阐发,和话语阐发)语义脚色标识表记标帜。和谜底融合对于推理,言的逻辑暗示[86系统应处置天然语,3]1。环境下在这种,暗示以至可能会影响机能作为预过滤步调的词袋。
模子多种多样虽然消息检索,精度和召回程度前往恰当的一组候选谜底但问题回覆系统仍可能无法以可接管的。太多错误谜底若是系统生成,高成果的精确性我们可能但愿提。案或生成的准确谜底太少若是系统找不到任何答,对问题谜底的回忆我们有乐趣改善。少时消弭一些环节字来处理质量包管问题能够通过放宽查询并在前往的候选数太,例时添加环节字来加强查询的质量或者通过在发觉过多带有谜底的实。入[106]这种方式被纳。
能的环节要素之一响应时间是问答性。证较短的响应时间在线问答系统应保。题的复杂性考虑到问,检索模子系统应在,间之间找到一个均衡点索引手艺和谜底查找时。环境下在这种,67]和“立即”语义暗示[134]能够考虑利用MapReduce [。
可能会供给一些谜底虽然选择的检索模子,据源的分歧可是按照数,有准确谜底的环境可能会呈现此中没。环境下在这种,案能否错误判断一个答,总比没有谜底要好或能否是部门谜底。
|