资源描述
,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,2019年8月18,感谢你的观看,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,2019年8月18,感谢你的观看,*,绪论,计算机科学与技术学院信息检索研究室,1,感谢你的观看,2019年8月18,绪论1感谢你的观看2019年8月18,2019年8月18,感谢你的观看,2,大纲,语言处理中的知识,歧义,模型和算法,语言、思维和理解,学科现状与近期发展,语言处理简史,2019年8月18感谢你的观看2大纲语言处理中的知识,2019年8月18,感谢你的观看,3,自然语言,Dave Bowman:Open the pod bay doors,HAL.,HAL:Im sorry Dave.Im afraid I cant do that.,2019年8月18感谢你的观看3自然语言Dave Bowma,2019年8月18,感谢你的观看,4,语言处理中的知识,自然语言处理,把处理口语和书面语(统称为“语言”)的计算技术称为语音和语言处理,简称自然语言处理,自然语言处理和其他处理系统的区别,是否使用语言知识,例如:,unix,系统中的,wc,应用程序,wc,用来计算文本文件中的字节数、词数或行数,2019年8月18感谢你的观看4语言处理中的知识自然语言处理,2019年8月18,感谢你的观看,5,语言处理中的知识,Open the pod bay doors,HAL.,Im sorry Dave.Im afraid I cant do that.,语音学,(,phonetics,)和,音系学,(,phonology,)的知识:,帮助我们建立词如何在话语中发音的模型,2019年8月18感谢你的观看5语言处理中的知识Open t,2019年8月18,感谢你的观看,6,语言处理中的知识,Open the pod bay,doors,HAL.,Im,sorry Dave.,Im,afraid I,cant,do that.,形态学,(,morphologic,)方面的知识:,能够产生并识别单词的这样或那样的变体,需要形态学方面的知识,这些知识能够反映关于上下文中词的形态和行为的有关信息。,2019年8月18感谢你的观看6语言处理中的知识Open t,2019年8月18,感谢你的观看,7,语言处理中的知识,Open the pod bay doors,HAL.,Im sorry Dave.Im afraid I cant do that.,Im I do,,,sorry that afraid Dave Im cant.,句法,(,syntax,):关于组词成句的知识。,2019年8月18感谢你的观看7语言处理中的知识Open t,2019年8月18,感谢你的观看,8,语言处理中的知识,Open the pod bay doors,HAL.,Im sorry Dave.Im afraid I cant do that.,词汇语义学,(,lexical semantics,):,为了理解,Dave,的请求事实上是关于要求关闭分离舱门的一个命令,而不是讲关于当天中饭的菜单的事情,就要有复合词的语义知识、词汇语义学的知识。,2019年8月18感谢你的观看8语言处理中的知识Open t,2019年8月18,感谢你的观看,9,语言处理中的知识,Open the pod bay doors,HAL.,Im sorry,Dave.,Im afraid,I cant do that.,这种礼貌和委婉语言的用法属于,语用学,(,pragmatics,)的研究领域。,2019年8月18感谢你的观看9语言处理中的知识Open t,2019年8月18,感谢你的观看,10,语言处理中的知识,Open the pod bay doors,HAL.,Im sorry Dave.Im afraid I cant,do that,.,正确地把这样的会话组织成结构,需要,话语规约,(,discourse convention,)的知识。,2019年8月18感谢你的观看10语言处理中的知识Open,2019年8月18,感谢你的观看,11,语言处理中的知识,语音学与音系学,研究语言的语音,形态学,研究词的有意义的组合,句法学,研究词与词之间的结构关系,语义学,研究意义,语用学,研究如何用语言来达成一定的目的,话语学,研究大于段的语言单位,2019年8月18感谢你的观看11语言处理中的知识语音学与音,2019年8月18,感谢你的观看,12,歧义,语言信息处理的绝大多数或者全部研究都可以看成是在其中某个层面上的消解歧义,I made her duck,I cooked waterfowl for her.,(我给她烹饪鸭子),I cooked waterfowl belonging to her.,(我烹饪属于她的鸭子),I created the(plaster?)duck she owns.,(我把她的石膏,(?),鸭子作了创新),I caused her to quickly lower her head or body.,(我使她很快地把她的头或身体放低一些),I waved my magic wand and turned her into undifferentiated waterfowl.,(我挥动魔杖把她变成了一只人们一点儿也看不出破绽的鸭子),2019年8月18感谢你的观看12歧义语言信息处理的绝大多数,2019年8月18,感谢你的观看,13,模型和算法,状态机(,state machine,),包括状态、状态之间的转移、输入表示等,形式规则系统(,formal rule system,),正则语法、正则关系、上下文无关语法,逻辑(,logic,),逻辑表达方法是处理语义学、语用学和话语分析等方面知识的选择工具,概率论(,probability theory,),其他的各种模型都可以使用概率得到进一步提高,也是一种机器学习(,machine learning,)的模型,2019年8月18感谢你的观看13模型和算法状态机(stat,2019年8月18,感谢你的观看,14,语言、思维和理解,图灵测试,计算机对于语言的使用情况来作为判断计算机是否能进行思维的依据,参加测试者:两个人,一台计算机,ELIZA,(,1966,年),用户:你看起来有些像我的父亲,ELIZA,:你认为我那些特点像你的父亲呢?,2019年8月18感谢你的观看14语言、思维和理解图灵测试,2019年8月18,感谢你的观看,15,学科现状与近期发展,目前的研究领域,信息检索,机器翻译,文语转换,近期发展,数字图书馆,电子学习,残疾人帮助,2019年8月18感谢你的观看15学科现状与近期发展目前的研,2019年8月18,感谢你的观看,16,语言信息处理简史,基础研究:,20,世纪,40,年代,50,年代,两个阵营:,1957,年,1970,年,四个范型:,1970,年,1983,年,经验主义和有限状态模型的复苏:,1983,年,1993,年,不同领域的合流:,1994,年,2019年8月18感谢你的观看16语言信息处理简史基础研究:,2019年8月18,感谢你的观看,17,基础研究:,20,世纪,40,年代,50,年代,自动机的研究,图灵(,Turing,)提出了,自动机理论,现代计算机科学的基础,McCulloch-Pitts,的神经元(,neuron,)理论,Kleene,关于有限自动机和正则表达式的研究,Shannon,把离散马尔可夫过程的概率模型应用于描述语言的自动机,Chomsky,把有限状态自动机作为一种工具来刻画语言的语法,把有限状态语言定义为由有限状态语法生成的语言,2019年8月18感谢你的观看17基础研究:20世纪40年代,2019年8月18,感谢你的观看,18,基础研究:,20,世纪,40,年代,50,年代,概率或信息论模型的研究,Shannon,用于语音和语言处理的概率算法的研制,把通过诸如通信信道或声学语音这样的媒介传输语言的行为比喻为噪声信道(,noisy channel,)或解码(,decoding,)。,利用术语“,熵,”(,entropy,)来作为测量信道的信息能力或者语言的信息量的一种方法。,2019年8月18感谢你的观看18基础研究:20世纪40年代,2019年8月18,感谢你的观看,19,两个阵营:,1957,年,1970,年,符号派(,symbolic,),Chomsky,等形式语言理论和生成句法研究,人工智能的研究,随机派(,stochastic,),贝叶斯方法开始用于解决最优字符识别问题,2019年8月18感谢你的观看19两个阵营:1957年19,2019年8月18,感谢你的观看,20,四个范型:,1970,年,1983,年,随机范型(,stochastic paradigm,),隐马尔可夫模型和比喻为噪声信道与解码的模型,基于逻辑的范型(,logic-based paradigm,),基于自然语言理解的范型(,Natural Language Understanding,),话语模型范型(,discourse model paradigm,),2019年8月18感谢你的观看20四个范型:1970年19,2019年8月18,感谢你的观看,21,经验主义和有限状态模型的复苏:,1983,年,1993,年,过去,chomsky,对于,Skinner,的“言语行为”(,Verbal Behavior,)的很有影响的评论在这时遭到了理论上的反对,受,IBM,的,Thomas J.Watson,研究中心的语音识别概率模型的影响,提出了语音和语言处理的概率模型。,2019年8月18感谢你的观看21经验主义和有限状态模型的复,2019年8月18,感谢你的观看,22,不同领域的合流:,1994,年,概率和数据驱动的方法几乎成为了自然语言处理的标准方法,由于计算机的速度和存储量的增加,使得在语音和语言处理的一些子领域,有可能进行商品化的开发,Web,的发展使得进一步加强基于语言的信息检索和信息抽取的需求变得更加突出,2019年8月18感谢你的观看22不同领域的合流:1994年,2019年8月18,感谢你的观看,23,主要的会议和杂志,ACL,(,A,ssociation for,C,omputational,L,inguistics,),美国计算语言学会,COLING,(,International Conference on Computational Linguistics,),国际计算语言学会议,2019年8月18感谢你的观看23主要的会议和杂志ACL(A,2019年8月18,24,谢谢!,感谢你的观看,2019年8月1824谢谢!感谢你的观看,
展开阅读全文