资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,中文信息处理与汉语研究,现状和发展,詹卫东,北京大学中文系,北京大学汉语语言学研究中心北京,,100871,http:/, 纲,中文信息处理研究的格局,中文信息处理的现状和发展趋势,语言知识资源的建设,面向中文信息处理的汉语研究,2,一 中文信息处理研究的格局,信息的两个层次:,符号层,中文,/,汉语,/,汉字内容层,符号所承载的意义,中文信息处理的两个层次:字符处理(输入、存储、输出等)内容处理(词语切分,词性标注,结构分析,意义理解,推理,翻译,等等),(信号,vs.,信息),3,符号层的信息处理,拼音文字:小字符集,比较容易,非拼音文字:大字符集,难度很大,汉字是一个大字符集,说文解字,(东汉):,9353,字,玉篇,(南朝)收录,16,917,字,广韵,(宋代)收字,26,194,字,字汇,(明朝)收录,33,197,字,康熙字典,(清朝)收录,47,043,字,汉语大字典,(,1992,年),5.6,万,中华字海,(,1994,年,),8.6,万,拉丁字母只有,26,个符号,斯拉夫字母只有,33,个符号,阿尔明尼亚字母只有,38,个符号,泰米尔字母只有,36,个符号,缅甸字母只有,52,个符号,泰文字母只有,44,个符号,老挝字母只有,27,个符号,藏文字母只有,35,个符号,韩文字母只有,24,个符号,日文假名只有,48,个符号,4,符号层的信息处理,汉字输入,自动输入,键盘输入,字形识别,声音识别,手写体识别,印刷体识别,在线手写,脱机手写,整字键盘,通用键盘,主辅式,感应式,形码,音码,形音结合码,1,2,3,4,5,6,7,8,9,5,内容层的信息处理,形态丰富的语言(,inflecting language,):处理难,形态不丰富的语言,(,analytic language,),:处理更难,汉语,英语,老师都来了,All professors came here.,张老师都来了,Even Professor Zhang came here.,编辑工作很难,Editing is very difficult.,如何当好编辑,How to become a good editor,6,内容层的信息处理,原文,原文输入,译前编辑,词法分析,句法分析,语义分析,语境分析,内部表示转换,译词选择,译后编辑,译文输出,词形变化,句子生成,译文,1,2,3,4,5,6,7,8,9,10,11,12,机器翻译全过程,需要语言知识!,7,内容层处理对符号层处理的反作用,拼音串(无声调),xue,xi,dian,nao,ji,shu,候选字串,雪,系,点,脑,机,树,共有,14,98,41,15,167,68,95.8,亿种可能性,学,洗,电,闹,给,述,学,西,颠,挠,记,书,候选词串,学习,电脑,级数,共有,2,1,7,14,种可能性,血洗,电脑,奇数,血洗,电脑,基数,正确文字串,学习电脑技术,8,内容层处理对符号层处理的反作用,拼音串(无声调),xue,xi,dian,nao,ji,shu,候选字串,雪,系,点,脑,机,树,共有,14,98,41,15,167,68,95.8,亿种可能性,学,洗,电,闹,给,述,学,西,颠,挠,记,书,候选词串,学习,电脑,级数,共有,2,1,7,14,种可能性,血洗,电脑,奇数,血洗,电脑,基数,正确文字串,学习电脑技术,9,内容层处理对符号层处理的反作用,拼音串(无声调),xue,xi,dian,nao,ji,shu,候选字串,雪,系,点,脑,机,树,共有,14,98,41,15,167,68,95.8,亿种可能性,学,洗,电,闹,给,述,学,西,颠,挠,记,书,候选词串,学习,电脑,级数,共有,2,1,7,14,种可能性,血洗,电脑,奇数,血洗,电脑,基数,正确文字串,学习电脑技术,10,内容层处理对符号层处理的反作用,拼音串(无声调),xue,xi,dian,nao,ji,shu,候选字串,雪,系,点,脑,机,树,共有,14,98,41,15,167,68,95.8,亿种可能性,学,洗,电,闹,给,述,学,西,颠,挠,记,书,候选词串,学习,电脑,级数,共有,2,1,7,14,种可能性,血洗,电脑,奇数,血洗,电脑,基数,正确文字串,学习电脑技术,11,二 中文信息处理的现状和发展趋势,现状符号层的处理成果已经得到广泛应用;中文输入,/,字库,/,字处理软件,/,排版,/,内容层的处理目前在词语识别和词性标注方面已经取得重要进展,句子结构分析和语义分析方面仍有待探索,12,系统演示,北京大学现代汉语分词,/,词性标注,/,句法分析系统(孙斌、刘群、常宝宝、詹卫东等),http:/ 语言知识资源的建设,现代汉语语法信息词典,基于配价理论的现代汉语语义词典,现代汉语短语结构信息库,2700,万字现代汉语分词与词性标注语料库,句子对齐的汉英双语语料库,现代汉语树库,现代汉语短语结构规则库,15,资源演示,现代汉语语义词典(詹卫东、王惠等),http:/,汉英平行语料库(常宝宝、柏晓静等),现代汉语树库(詹卫东、常宝宝等),16,四 面向中文信息处理的语言学研究,充分重视各个层次上的语言歧义研究,拓展语言现象的研究面,强调研究结果的可操作性,推动语言知识的形式化、系统化和规模化,加强语言知识库的工程建设,为中文信息处理(内容层的处理)积累更多基础资源,17,歧义示例,张 店 区 大 学 生 不 看 重 大 城 市 户 口,张店区 大学生 不 看 重大 城市 户口,张店区 大学生 不 看重 大 城市 户口,18,歧义示例(续),有,三,百,多,种,树,v,mcp,q,n,mp,np,vp,np,vp,有,三,百,多,种,树,v,mcp,v,n,vp,vp,np,vp,vp,vp,有 三 百 多 种 树,v m m m,q/v,n,有 三 百 多 种 树,19,歧义示例(续),请 转告 李宇明 司长 下午 三点 出发,v v n n t t v,请转告李宇明 司长下午三点出发,请转告李宇明司长 下午三点出发,20,要让计算机“理解”一个句子,实际上要解决下面两个核心问题:,(,1,)一个句子的结构和意义是什么?,(,2,)如何得到一个句子的结构和意义?,第一个问题是“,What,”,的问题,这是理论语言学关心的问题;,第二个问题是“,How,”,的问题,这是计算语言学关心的问题,也就是面向中文信息处理的语言研究需要关心的问题。,结 语,21,参考文献,慈林林 鲁元魁,,1999,,,中文信息处理新技术展望,,,计算机世界,1999,年第,44,期“产品与技术”版“专题报道”。,刘梦松,,1998,,,中文信息处理软件概述,,,计算机世界,1998,年第,26,期“技术专题”版。,许嘉璐,,2002,,,现状和设想,试论中文信息处理与现代汉语研究,,,中国语文,2000,年第,6,期。,俞士汶,朱学锋,,2002,,,关于汉语信息处理的认识及其研究方略,,,语言文字应用,2002,年第,3,期。,俞士汶,朱学锋,王惠,,2001,,,的新进展,,,中文信息学报,2001,年第,1,期。,詹卫东,常宝宝,俞士汶,,2002,机器翻译与语言研究,,,语言科学,2002,年第,1,期(创刊号)。,詹卫东,,,2000,,,80,年代以来汉语信息处理研究述评,,,当代语言学,2000,年第,2,期。,张华平,,2003,,,中文信息处理技术发展简史,,,http:/,(中文信息处理开放平台网站),22,国内外重要的语言知识资源举例,WordNet,,,http:/,www.cogsci.princeton.edu/wn,/,FrameNet,,,http:/www.icsi.berkeley.edu/framenet/,HowNet,,,http:/ 谢,请大家批评指正,欢迎访问,http:/,http:/,24,
展开阅读全文