机器学习方法在少数民族语言信息处理中的应用课件

资源描述

E-mail:Home Page:Add.:No.95,Zhong Guan Cun Dong Lu,Beijing 100190,China机器学习方法在少数民族机器学习方法在少数民族语言信息处理中的应用语言信息处理中的应用模式识别国家重点实验室模式识别国家重点实验室2/54内容提要内容提要1.引言引言2.机器学习方法概述机器学习方法概述3.ML方法在方法在NLP中的应用中的应用4.一点建议和思考一点建议和思考3/541.引言引言u随随随随着着着着互互互互联联网网网网、移移移移动动通通通通信信信信技技技技术术的的的的快快快快速速速速发发展展展展，信信信信息息息息安安安安全全全全与个性化信息服与个性化信息服与个性化信息服与个性化信息服务务成成成成为为人人人人们们关注的焦点关注的焦点关注的焦点关注的焦点u云云云云计计算算算算、大大大大数数数数据据据据、社社社社会会会会计计算算算算、数数数数据据据据挖挖挖挖掘掘掘掘等等等等一一一一批批批批新新新新术术语语像雨后春笋般地相像雨后春笋般地相像雨后春笋般地相像雨后春笋般地相继继涌涌涌涌现现u这这些些些些术语术语的背后的背后的背后的背后蕴蕴藏着哪些科学藏着哪些科学藏着哪些科学藏着哪些科学问题问题？u解决解决解决解决这这些些些些问题问题的关的关的关的关键键技技技技术术和手段是什么？和手段是什么？和手段是什么？和手段是什么？u少少少少数数数数民民民民族族族族语语言言言言信信信信息息息息处处理理理理该该从从从从何何何何处处入入入入手手手手抓抓抓抓住住住住时时代代代代的的的的机机机机遇，遇，遇，遇，应对应对面面面面临临的挑的挑的挑的挑战战？机器学习机器学习(machine learning)一门不能不关注的技术一门不能不关注的技术一门不能不关注的技术一门不能不关注的技术4/54内容提要内容提要1.引言引言2.机器学习方法概述机器学习方法概述3.ML方法在方法在NLP中的应用中的应用4.一点建议和思考一点建议和思考5/542.机器学习方法概述机器学习方法概述2.1 基本概念基本概念u目目前前，机机器器学学习方方法法的的主主要要理理论基基础是是统计学学和和信信息息论，因因此此，机机器器学学习通通常常又又被被称称为统计学学习(statistical learning)或或者者统计机机器器学学习(statistical machine translation)。u“如如果果一一个个系系统能能够通通过执行行某某个个过程程改改进它它的的性能，性能，这就是学就是学习。”Herbert A.Simon6/542.机器学习方法概述机器学习方法概述u统计学学习的主要特点的主要特点李航，李航，2012：以以计算机和网算机和网络为平台平台数据数据驱动对数据数据进行行预测与分析与分析以方法以方法为中心，构建模型中心，构建模型是是概概率率论、统计学学、信信息息论、计算算理理论、最最优化化理理论和和计算机科学等多算机科学等多领域的交叉学科域的交叉学科对象象:语料料目的目的:对语言言现象象进行行预测、分析、分析7/542.机器学习方法概述机器学习方法概述u举例例今天他从北京来到今天他从北京来到兰州。州。昨天昨天张老老师从上海来到从上海来到这里。里。明天明天赵老老师从南京来从南京来兰州。州。十年前她从北京来到十年前她从北京来到兰州。州。Time+NP/Pron+从从+Place1 来来(到到)Place2Time+NP/Pron+从从+Place1 来来(到到)兰州州|概率？概率？他和她从他和她从+？来来(到到)兰州？州？8/542.机器学习方法概述机器学习方法概述u举例例微博情感分微博情感分类正性正性负性负性“这有什这有什么不好的！么不好的！”“神马玩神马玩艺儿，坑艺儿，坑爹！爹！”9/542.机器学习方法概述机器学习方法概述2.2 基本方法基本方法u监督学督学习(supervised learning)u非非监督学督学习(unsupervised learning)u半半监督学督学习(semi-supervised learning)u强强化学化学习(reinforcement learning)10/542.机器学习方法概述机器学习方法概述u监督学督学习(supervised learning)l给定定有有限限的的、人人工工标注注好好的的大大量量数数据据，假假设这些些数数据是独立同分布据是独立同分布产生的生的(训练集，集，training data)l假假设要要学学习的的模模型型属属于于某某个个函函数数的的集集合合，即即假假设空空间(hypothesis space)l应用用某某（些些）个个评价价准准则(evaluation criterion)，从从假假设空空间中中选取取最最优的的模模型型，使使其其对已已知知的的训练数数据据和和未未知知的的测试数数据据(test data)在在给定定的的评价价准准则下下有有最最优的的预测11/542.机器学习方法概述机器学习方法概述一般步骤一般步骤：获得一个有限的训练数据集合获得一个有限的训练数据集合确定包含所有可能的模型的假设空间，即学习模型确定包含所有可能的模型的假设空间，即学习模型的集合的集合确定模型选择的准则，即学习的策略确定模型选择的准则，即学习的策略通过学习方法选择最优模型通过学习方法选择最优模型利用学习到的最优模型对新数据进行预测或分析利用学习到的最优模型对新数据进行预测或分析语料收集和标注语料收集和标注12/542.机器学习方法概述机器学习方法概述问题的形式化问题的形式化：学习系统学习系统模型模型(x1,y1),(x2,y2),(xN,yN)预测系统预测系统xN+1yN+1给定一个训练数据集：给定一个训练数据集：T=(x1,y1),(x2,y2),(xN,yN)其中，其中，(xi,yi),i=1,2,N，称，称为样本。本。xi是是输入的入的观测值，也称，也称输入或入或实例；例；yi 是是输出的出的观测值，也称，也称输出。出。13/542.机器学习方法概述机器学习方法概述在监督学习中，假设训练样本与测试数据是依据在监督学习中，假设训练样本与测试数据是依据联合概率分布独立同分布的。联合概率分布独立同分布的。在学习的过程中，学习系统利用给定的训练样本，在学习的过程中，学习系统利用给定的训练样本，通过学习（或训练）得到一个模型，表示为条件概率通过学习（或训练）得到一个模型，表示为条件概率分布：分布：或决策函数：或决策函数：，描述输入与，描述输入与输出随机变量之间的映射关系。输出随机变量之间的映射关系。在预测的过程中，预测系统对于给定的测试样本集在预测的过程中，预测系统对于给定的测试样本集中的输入中的输入 xN+1，由模型，由模型或或给出相应的输出给出相应的输出yN+1。14/542.机器学习方法概述机器学习方法概述2.3 常用常用方法方法u感知机感知机(perceptron)：二二类分分类uk-近近邻法法(k-nearest neighbor,k-NN)：多多类分分类问题u朴素朴素贝叶斯法叶斯法(nave Bayes)：多多类分分类问题u决策决策树(decision tree)：多多类分分类问题u最大最大熵(maximum entropy)：多：多类分分类问题u支持向量机支持向量机(support vector machine,SVM)：二二类分分类u条件随机条件随机场(conditional random field,CRF)：序列序列标注注u隐马尔尔可夫模型可夫模型(hidden Markov model,HMM)：标注注15/542.机器学习方法概述机器学习方法概述概率图模型的演变概率图模型的演变Sutton and McCallum,2007点点线线图ME16/542.机器学习方法概述机器学习方法概述2.4 开源工具开源工具u条件随机场：条件随机场：CRF+（C+版）：版）：CRFSuite（C语言版）：语言版）：MALLET（Java版，通用的版，通用的NLP工具包，包括分类、工具包，包括分类、序列标注等机器学习算法）：序列标注等机器学习算法）：NLTK（Python版，通用的版，通用的NLP工具包，很多工具是工具包，很多工具是从从MALLET中包装转成的中包装转成的Python接口）：接口）：17/542.机器学习方法概述机器学习方法概述u贝叶斯分叶斯分类器：器：u支持向量机支持向量机(LibSVM)：u隐马尔尔可夫模型：可夫模型：18/54u最大熵：最大熵：OpenNLP：Malouf：Tsujii：张乐：林德康：林德康：2.机器学习方法概述机器学习方法概述19/54内容提要内容提要1.引言引言2.机器学习方法概述机器学习方法概述3.ML方法在方法在NLP中的应用中的应用4.一点建议和思考一点建议和思考20/543.1 由字构词由字构词 (基于字标注基于字标注)的分词方法的分词方法 (Character-based tagging)第一篇由字构词的汉语分词方法的论文第一篇由字构词的汉语分词方法的论文Xue,2002发表在发表在2002年第一届国际计算语言学学会年第一届国际计算语言学学会(ACL)汉语汉语特别兴趣小组特别兴趣小组SIGHAN()组织的汉语分词评测组织的汉语分词评测(Bakeoff)研讨会上。该方法在研讨会上。该方法在2005年和年和2006年的两次年的两次Bakeoff 评测中取得好成绩。评测中取得好成绩。3.ML方法在方法在NLP中的应用中的应用21/54u基本思想基本思想：将分将分词过程看作是字的分程看作是字的分类问题。该方方法法认为，每个字在构造一个特定的，每个字在构造一个特定的词语时都占据着都占据着一个确定的构一个确定的构词位置位置(即即词位位)。假定每个字只有。假定每个字只有4个个词位：位：词首首(B)、词中中(M)、词尾尾(E)和和单独成独成词(S)，那么，每个字那么，每个字归属一特定的属一特定的词位。位。这里所里所说的的“字字”不不仅限于限于汉字，也可以指字，也可以指标点点符号、外文字母、注音符号和阿拉伯数字等任何可符号、外文字母、注音符号和阿拉伯数字等任何可能出能出现在在汉语文本中的文字符号，所有文本中的文字符号，所有这些字符都些字符都是由字构是由字构词的基本的基本单元。元。3.ML方法在方法在NLP中的应用中的应用22/54例如例如：(1)上海上海/计划计划/到到/本本/世纪世纪/末末/实现实现/人均人均/国国内内/生产生产/总值总值/五千美元五千美元/。/(2)上上/B 海海/E 计计/B 划划/E 到到/S 本本/S 世世/B 纪纪/E 末末/S 实实/B 现现/E 人人/B 均均/E 国国/B 内内/E 生生/B 产产/E 总总/B 值值/E 五五/B 千千/M 美美/M 元元/E。/S 3.ML方法在方法在NLP中的应用中的应用23/54 在字标注过程中，对所有的字根据预定义的特征在字标注过程中，对所有的字根据预定义的特征进行词位特征学习，获得一个概率模型，然后在待切进行词位特征学习，获得一个概率模型，然后在待切分字串上，根据字与字之间的结合紧密程度，得到一分字串上，根据字与字之间的结合紧密程度，得到一个词位的分类结果，最后根据词位定义直接获得最终个词位的分类结果，最后根据词位定义直接获得最终的分词结果。的分词结果。u 工具工具：支持向量机支持向量机(SVM)条件随机场条件随机场(CRF)3.ML方法在方法在NLP中的应用中的应用24/54基于条件随机场基于条件随机场基于条件随机场基于条件随机场(CRF)(CRF)的识别方法：序列标注的识别方法：序列标注的识别方法：序列标注的识别方法：序列标注y1 y2 y3 yn-1 ynW=w1w2wn wi-1 wi wi+1 yi-1 yi yi+13.ML方法在方法在NLP中的应用中的应用25/543.ML方法在方法在NLP中的应用中的应用Z(X)为归一化因：一化因：特征函数：特征函数：三个基本问题：特征的选取、参数训练和解码三个基本问题：特征的选取、参数训练和解码。26/54上上/B 海海/E 计计/B 划划/E 到到本本世世纪纪 3.ML方法在方法在NLP中的应用中的应用B,E,M,S?l当前字的前后当前字的前后 n 个字个字(如如 n2)l当前字左当前字左边字的字的标记l当前字在当前字在词中的位置中的位置 27/54u评价评价：该方法的重要方法的重要优势在于，它能在于，它能够平衡地看待平衡地看待词表表词和未登和未登录词的的识别问题，文本中的，文本中的词表表词和未登和未登录词都是用都是用统一的字一的字标注注过程来程来实现的。在学的。在学习构架上，构架上，既可以不必既可以不必专门强强调词表表词信息，也不用信息，也不用专门设计特特定的未登定的未登录词识别模模块，因此，大大地，因此，大大地简化了分化了分词系系统的的设计。3.ML方法在方法在NLP中的应用中的应用28/543.2 基于基于CRF的藏语分词方法的藏语分词方法主要主要针对的的问题是：是：紧缩词识别已有的方法多数是基于已有的方法多数是基于规则的的Huidan Liu et al.(2011)实现了基于音了基于音节标注的藏注的藏语分分词方法，方法，该方法把分方法把分词和和紧缩词识别融和到一融和到一个个统一的一的标注体系中注体系中史史晓东等等(2011)将将基于基于HMM的的汉语分分词系系统Segtag移植到了藏移植到了藏语中中3.ML方法在方法在NLP中的应用中的应用29/54李李亚超等超等(2013)分析了分析了紧缩词的出的出现频率率3.ML方法在方法在NLP中的应用中的应用语料料频度度整体整体S1S2S3S4S5S6词典典次数次数38354266771270148662351111比例比例 0.4910 0.3415 0.1626 0.0623 0.0030 0.0001 0.0001文本文本次数次数 298777 192623 56618 462426771946671比例比例 0.3488 0.2249 0.0661 0.0540 0.0008 0.0023 0.0008S1S6分分别代表代表6个个紧缩词：“”、“”、“”、“”、“”、“”30/54 通通过分析，我分析，我们可以可以把紧缩词识别问题看成分类问题，把紧缩词识别问题看成分类问题，将将这这6个紧缩词按照功能划分个紧缩词按照功能划分成成两大类两大类：一类是作为格助词，一类是作为格助词，另外一类是非格助词（包括基字和后加字）另外一类是非格助词（包括基字和后加字）。这样。这样就可以把就可以把紧缩词识别转化为序列标注问题，进而可以采用当前成熟的紧缩词识别转化为序列标注问题，进而可以采用当前成熟的序列标注模型序列标注模型（如（如CRF）来进行识别来进行识别。如句子：如句子：切分切分为音音节序列后序列后：/序列标记后序列标记后：/N/N/N/N/N/Y/N/N/N/N/N/N 还原出分词还原出分词的的基本单位基本单位：/3.ML方法在方法在NLP中的应用中的应用31/54 参照汉语基于字的分词方法，参照汉语基于字的分词方法，选用选用“BMES”标记标记集，根据每个藏文音节在词中出现的位置，给予不同的集，根据每个藏文音节在词中出现的位置，给予不同的标签标签。3.ML方法在方法在NLP中的应用中的应用音音节数数藏语词汇藏语词汇标记示例标记示例1(我，nga)/S2(学生，slob ma)/B/E3(记者，gsar vgod pa)/B/M/E4(常务主席，rgyun las kruvu zhi)/B/M/M/E32/54u训练语料料：13.4M，用于用于分分词模型和模型和紧缩词处理模型理模型训练u开放开放测试集：集：424212(词数)3.ML方法在方法在NLP中的应用中的应用l紧缩词识别结果：紧缩词识别结果：F1=98.91%l分分词结果：果：F1 95%实验证明，紧缩词识别对提高分词性能有明显的效果。实验证明，紧缩词识别对提高分词性能有明显的效果。李亚超，加羊吉，宗成庆，于洪志，基于条件随机场的李亚超，加羊吉，宗成庆，于洪志，基于条件随机场的藏语自动分词方法研究与实现，中文信息学报，藏语自动分词方法研究与实现，中文信息学报，2013年年7月，第月，第27卷第卷第4期，第期，第5258页页33/543.3 CRF和和ME相结合相结合的藏语人名识别方法的藏语人名识别方法u藏文人名识别的难点藏文人名识别的难点藏文人名没有明藏文人名没有明显的形的形态特征特征，不像英，不像英语等等,首字母大写首字母大写普通普通词作作为人名用人名用词现象象严重重，如如(大海大海)、(花花朵)、(长寿寿)、(幸福幸福)、(星期五星期五)、(初一初一)等等音音节长度不度不规范。藏文人名以二、三、四音范。藏文人名以二、三、四音节为主，也有主，也有少量少量单音音节的的人名（如：人名（如：）以及多音）以及多音节（如（如:）。藏文最）。藏文最长人名可达人名可达26个音个音节3.ML方法在方法在NLP中的应用中的应用34/54u藏文人名的藏文人名的组成特点：成特点：用宗教术语命名，如用宗教术语命名，如:用自然意境命名，如用自然意境命名，如:表达美好愿望而命名的，如表达美好愿望而命名的，如:以以纪念出生日期命名，如念出生日期命名，如:用用动物名命名，如物名命名，如:以以纪念某种念某种历史事件命名的，如史事件命名的，如:3.ML方法在方法在NLP中的应用中的应用加羊吉加羊吉对西藏日西藏日报2007年1月的月的语料中出料中出现的的所有藏族人名所有藏族人名进行了分析，其中行了分析，其中91%的人名是以前三的人名是以前三种方式起名的。种方式起名的。35/54u藏文人名的藏文人名的边界用界用词分析：分析：加羊吉加羊吉从西藏日从西藏日报2007年年1月的月的语料料库和青海藏文网一部和青海藏文网一部分分语料（共料（共计528169个音个音节）中抽取了）中抽取了1403个人名，其中，个人名，其中，藏族人名有藏族人名有995个，个，译名有名有408个。个。得出如下得出如下统计数据：数据：3.ML方法在方法在NLP中的应用中的应用SNR 5902978250292725231815左边用词频度左边用词频度右边用词频度右边用词频度 568383194535145141274SNR指指人名出现在句首人名出现在句首。36/54uCRF与与ME相相结合的合的动因：因：最大最大熵模型模型的的特征特征选择比比较灵活，灵活，应用于不同用于不同领域域时的可移的可移植性植性较强强，因此，在，因此，在实验中一直保持中一直保持较好的召回率；而条件好的召回率；而条件随机随机场能能够较好地解决最大好地解决最大熵模型的模型的标注偏置等注偏置等问题，从而，从而大幅度地提高准确率。大幅度地提高准确率。针对两种模型的两种模型的优劣特点，劣特点，加羊吉等加羊吉等(2013)提出了两种模型相融合的提出了两种模型相融合的识别方法，定方法，定义评价函数价函数为：Total=CRF+(1)ME其中，其中，表示权重，我们可以通过调节值的大小，从而取得最优表示权重，我们可以通过调节值的大小，从而取得最优结果。结果。CRF 和和 ME 分别表示用条件随机场方法分别表示用条件随机场方法和和最大熵方法最大熵方法测试人名识别的结果测试人名识别的结果打分打分。3.ML方法在方法在NLP中的应用中的应用37/54u特征特征选择：左边界左边界右边界右边界左右边界和组合左右边界和组合人名字典人名字典译名用字译名用字3.ML方法在方法在NLP中的应用中的应用u测试：测试：西藏日西藏日报2007年年1月的月的语料（大小料（大小约 3.5 MB），用），用做做训练语料，西藏日料，西藏日报2007年年2月月1日至日至20日的日的语料料（大小（大小约2.1 MB）用作开放）用作开放测试。38/54u结果：果：3.ML方法在方法在NLP中的应用中的应用准确率准确率(%)召回率召回率(%)F值(%)CRF97.4287.8492.38Maxent93.5289.6591.55Total0.4694.9389.6592.220.4995.0889.9192.420.5295.4689.7892.530.5595.8689.7892.720.5896.2790.0493.050.6196.7989.6593.080.6496.9189.2692.930.6797.1788.8792.840.7097.4488.6292.820.7397.5788.3692.74加羊吉加羊吉,李亚超，李亚超，宗成庆宗成庆,于洪志于洪志.最大熵和条件随最大熵和条件随机场模型相融合机场模型相融合的藏文人名识别的藏文人名识别方法方法.中文信息中文信息学报学报，2013。39/543.4 基于基于CRF的维语人名识别的维语人名识别u维吾尔语的构成：维吾尔语的构成：维吾尔语的构成：维吾尔语的构成：维吾尔语从上到下可分为句子、维吾尔语从上到下可分为句子、单词、音节和音素等单词、音节和音素等4个层次。个层次。共共有有32个音素，个音素，8个个元音和元音和24个辅音。音素组成音节，音节组成单词，个辅音。音素组成音节，音节组成单词，单词则组成句子。单词则组成句子。3.ML方法在方法在NLP中的应用中的应用40/54u维吾尔语人名识别难点：维吾尔语人名识别难点：维吾尔语人名识别难点：维吾尔语人名识别难点：黏着性导致太多的派生词黏着性导致太多的派生词：一个维吾尔单词通过连一个维吾尔单词通过连接词缀可产生新的单词和派生词，这将产生大量的接词缀可产生新的单词和派生词，这将产生大量的未登陆人名。未登陆人名。如如“阿里木阿里木”有如下形式：有如下形式：()+)+()+(3.ML方法在方法在NLP中的应用中的应用41/54无大小写区分无大小写区分：不像其它语言，维吾尔语中的人名不像其它语言，维吾尔语中的人名没有大小写区分没有大小写区分。位置自由度强位置自由度强：单词顺序没有太大的限制，人名可单词顺序没有太大的限制，人名可以出现在句子中的任何位置以出现在句子中的任何位置。例。例如如，以下为包含人以下为包含人名名（阿里木）的句子：（阿里木）的句子：n.（阿里木没来）（阿里木没来）n .（他是阿里木的哥哥）（他是阿里木的哥哥）n .（他叫阿里木）（他叫阿里木）3.ML方法在方法在NLP中的应用中的应用42/54存在二义性存在二义性：部分人名兼有其它含义，如人名部分人名兼有其它含义，如人名“阿阿力木力木”也可用于也可用于“科学家科学家”的称谓，而的称谓，而“热依汗古热依汗古丽丽”可用于一种花名。可用于一种花名。人名派生现象人名派生现象：由于用语习惯不同，一个人名可能由于用语习惯不同，一个人名可能派生出几种人名，如：派生出几种人名，如：（艾米德）（艾米德）=（海米提）（海米提）（穆罕木德）（穆罕木德）=（买买提）（买买提）可可用用资资源源缺缺少少：目目前前维维吾吾尔尔语语中中尚尚缺缺少少大大型型人人名名标标注语料、人名词典等可利用资源。注语料、人名词典等可利用资源。3.ML方法在方法在NLP中的应用中的应用43/54u维吾尔语人名的类型：维吾尔语人名的类型：维吾尔语人名的类型：维吾尔语人名的类型：(1)(1)由由一个单词组成的人名：一个单词组成的人名：（姑丽加玛丽）（姑丽加玛丽）（艾斯卡尔）（艾斯卡尔）(2)(2)由由两个单词或两个以上单词组成的人名：两个单词或两个以上单词组成的人名：（艾力（艾力艾山）艾山）买买提依明）买买提依明）（尼加提（尼加提卡玛力）卡玛力）托合提托合提（艾山（艾山 3.ML方法在方法在NLP中的应用中的应用44/54(3)(3)缩写缩写人名：人名：（鲁提普拉（鲁提普拉穆塔力普）穆塔力普）.(4)(4)外来外来人名：人名：（格里戈里（格里戈里多布里金）多布里金）（张大山）（张大山）汉克斯）汉克斯）（汤姆（汤姆内贾德）内贾德）（艾哈迈迪（艾哈迈迪（藤原龙也）（藤原龙也）3.ML方法在方法在NLP中的应用中的应用45/54特征特征说明说明w-1w0w1当前当前词w0的上下文的上下文词形（形（1）POS-2POS-1POS0POS1POS2当前当前词w0的上下文的上下文词性（性（2）stem-1stem0stem1当前当前词w0的上下文的上下文词干（干（1）Suffix第一个后缀，如第一个后缀，如(=+艾儿肯艾儿肯)SuffixNum(w0)后后缀个数个数HasSuffix是是否否有有后后缀，如如果果有有HasSuffix1，否否则，HasSuffix0。SuffixLen(w0)后后缀长度度FirstSyll第一个音节，如第一个音节，如“”、“”和和“”等。等。LastSyll最最后后一一个个，如如“”、“”、“”、“”和和“”等。等。wLen(w0)单词长度度syllNum(w0)音音节的个数的个数nearVerb最近的一个最近的一个动词posInSent单词在句子中的位置在句子中的位置46/54l利利用用4207句句个个维语句句子子（含含58058个个词）作作为训练语料料训练权重重k，采用，采用贪婪算法选取特征模板贪婪算法选取特征模板；l利用利用1051个句子（含个句子（含14581个个词）作）作为测试语料料。3.ML方法在方法在NLP中的应用中的应用l结果果表表明明，上上下下文文词形形窗窗口口为 1时可可以以获得得最最高高的的F1值，上上下下文文词性性窗窗口口为 2时可可以以获得得最最高高F1值，而而对于于词干干特特征征来来说，上上下下文文窗窗口口为 1时可可以以获得得最最佳佳F1值。综合合利利用用各各种种特特征征，最最终达达到到的的准准确确率率为90.03，召回率，召回率为82.96，F1值为86.35。艾斯卡尔艾斯卡尔.肉孜，宗成庆等，基于条件随机场的维吾尔人肉孜，宗成庆等，基于条件随机场的维吾尔人名识别方法，清华大学学报名识别方法，清华大学学报(自然科学版自然科学版),2013(8)47/543.ML方法在方法在NLP中的应用中的应用48/54内容提要内容提要1.引言引言2.机器学习方法概述机器学习方法概述3.ML方法在方法在NLP中的应用中的应用4.一点建议和思考一点建议和思考49/544.一点建议和思考一点建议和思考1.有的放矢地开发语言资源有的放矢地开发语言资源语言学基础问题研究语言学基础问题研究语言学基础问题研究语言学基础问题研究机器翻译机器翻译机器翻译机器翻译自动文摘自动文摘自动文摘自动文摘信息抽取信息抽取信息抽取信息抽取不同的应用目的，需要不同的标注信息不同的应用目的，需要不同的标注信息不同的应用目的，需要不同的标注信息不同的应用目的，需要不同的标注信息50/544.一点建议和思考一点建议和思考2.建设开放的语言资源和关键技术交流平台建设开放的语言资源和关键技术交流平台LDC:LDC:Chinese LDC:Chinese LDC:OpenPR:OpenPR:FudanNLP:FudanNLP:ICTCLAS:ICTCLAS:HIT:HIT:开开开开放放放放与与与与共共共共享享享享（包包包包括括括括有有有有偿偿偿偿共共共共享享享享）是是是是共共共共同同同同进进进进步步步步的的的的助推器助推器助推器助推器51/544.一点建议和思考一点建议和思考3.走出边疆，走出走出边疆，走出“山寨山寨”了解别人在做什么、怎么做了解别人在做什么、怎么做了解别人在做什么、怎么做了解别人在做什么、怎么做让别人知道你在做什么让别人知道你在做什么让别人知道你在做什么让别人知道你在做什么和别人一起做事情和别人一起做事情和别人一起做事情和别人一起做事情追追追追寻寻寻寻时时时时代代代代发发发发展展展展的的的的快快快快轨轨轨轨道道道道，赶赶赶赶上上上上国国国国际际际际前前前前沿沿沿沿的的的的高高高高速车速车速车速车52/544.一点建议和思考一点建议和思考4.我的一点思考我的一点思考大数据时代我们面临的科学问题是什么？大数据时代我们面临的科学问题是什么？大数据时代我们面临的科学问题是什么？大数据时代我们面临的科学问题是什么？目目目目前前前前大大大大数数数数据据据据计计计计算算算算模模模模型型型型与与与与语语语语言言言言认认认认知知知知的的的的基基基基本本本本过过过过程程程程是是是是一致的吗？一致的吗？一致的吗？一致的吗？我们的优势在哪里？我们的优势在哪里？我们的优势在哪里？我们的优势在哪里？研究数据的同时研究我们自己研究数据的同时研究我们自己研究数据的同时研究我们自己研究数据的同时研究我们自己53/54参考文献参考文献J.Lafferty,A.McCallum,F.Pereira.2001.Conditional Random Fields:Probabilistic Models for Segmenting and Labeling Sequence Data.In Proceedings of International Conference on Machine Learning(ICML).Pages 282-289Huidan Liu,Minghua Nuo et al.2011.Tibetan Word Segmentation as Syllable Tagging Using Conditional Random Fields.In Proceedings of the 25th PACLIC,pp168-177H.M.Wallach.2004.Conditional Random Fields:An Introduction.CIS Technical Report MS-CIS-04-21,University of PennsylvaniaC.Sutton and A.McCallum.2007.An Introduction to Conditional Random Fields for Relational Learning.Introduction to Statistical Relational Learning,MIT Press李航李航.2012.统计学学习方法，清方法，清华大学出版社大学出版社史史晓东，卢亚军2011.央金藏文分央金藏文分词系系统中文信息学中文信息学报，25(4)：54-56宗成宗成庆.2013.统计自然自然语言言处理理(第第2版版)，清，清华大学出版社大学出版社p经常不断地学习,你就什么都知道。你知道得越多,你就越有力量pStudyConstantly,AndYouWillKnowEverything.TheMoreYouKnow,TheMorePowerfulYouWillBe学习总结结束语当你尽了自己的最大努力时，失败也是伟大的，所以不要放弃，坚持就是正确的。When You Do Your Best,Failure Is Great,So DonT Give Up,Stick To The End演讲人：XXXXXX 时间：XX年XX月XX日

展开阅读全文

机器学习方法在少数民族语言信息处理中的应用课件

最新文档