资源描述
,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,不平衡情感分类的分析研究,目录,半监视文本分类,传统半监视方法所面临的问题,样本的多样性与充分性,多样性的实现,特征子空间差异性实现,实验设置,实验结果分析,结语,半监视文本分类,近些年来,半监视文本分类在自然语言处理研究领域获得了显著的开展。,半监视文本分类旨在少量的标注样本根底上,利用未标注样本,提高分类性能。,半监视情感分类常见方法:,自训练self-training,标签传播算法(LP),Tri-training,EM,传统半监视方法所面临的问题,传统半监视学习方法self-training理论上应该是有效的:,eg: This brand is the worst quality that I have purchased. I would avoid this brand.,分类器从未标注样本中学习额外知识,实际上传统半监视学习方法并不是很成功,多样性,充分性,样本的多样性与充分性,多样性(diversity):衡量半监视中参加的未标注样本与已标注样本之间的相似度。,充分性(sufficiency):衡量分类器对样本分类的准确性。,好的半监视学习方法应该考虑充分性的根底上,尽量保证样本的多样性,从而获得好的分类性能。,样本的多样性与充分性,多样性的实现,传统的半监视学习方法倾向于参加与已标注样本相似度较大的未标注样本。,利用随机特征子空间增加样本之间的差异性,每次迭代选取不同的特征子空间,保证相邻两轮迭代特征子空间的差异性,在上轮余下的特征空间中挑选特征,保证unigram的不同,扩展bigram,特征子空间差异性实现,以unigram作为种子词,扩展bigram,eg: 假设包含特征 excellent, 那么特征 is_excellent, very_excellent 均被参加。,特征子空间的构建,unigram个数r固定,通过unigram参加与之相关的bigram。,保证相邻两轮迭代特征子空间中的unigram特征不同,从而降低了特征子空间中特征的相似度,如 excellent与is_excellent, 加大了相邻特征子空间的差异性。,实验设置,实验语料:,主题分类:20News,WebKB,情感分类:book, DVD, electronic, kitchen,实验设置,200篇样本作为测试语料,余下的作为标注样本和未标注样本,分类工具,MALLET 机器学习工具包中的最大熵分类器,分类效果衡量标准,分类准确率,分类方法比照,我们实现了以下分类方法的比较研究:,Baseline: training a classifier with the initial labeled data (no unlabeled data is employed);,Bootstrapping-T: the traditional bootstrapping algorithm;,Bootstrapping-RS: the bootstrapping algorithm with random subspace classifiers;,Bootstrapping-ES: the bootstrapping algorithm with excluded subspace classifiers;,Bootstrapping-ES+: the Bootstrapping-ES implementation with a feature excluding strategy to guarantee the difference between different types of features, i.e., word unigrams and bigrams in this study.。,分类方法比较-主题分类,分类方法比较-情感分类,特征子空间大小设置,实验结果分析,半监视学习在情感分类中要比主题分类困难,比较Bootstrapping-T,Bootstrapping-RS,Bootstrapping-ES,Bootstrapping-ES+,随着特征子空间差异性的增大,其分类性能呈递增趋势,特征子空间的大小选择占整个特征空间的1/6到1/3为益,不能太小,谢谢,
展开阅读全文