《文本分类综述》PPT课件

上传人:y****n 文档编号:244997402 上传时间:2024-10-07 格式:PPT 页数:37 大小:211KB
返回 下载 相关 举报
《文本分类综述》PPT课件_第1页
第1页 / 共37页
《文本分类综述》PPT课件_第2页
第2页 / 共37页
《文本分类综述》PPT课件_第3页
第3页 / 共37页
点击查看更多>>
资源描述
单击此处编辑母版标题样式,*,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,文本分类综述,王 斌,中国科学院计算技术研究所,2002年12月,报告内容,文本分类的定义和应用,文本分类的方法,文本分类的评估指标,参考文献和资源,文本分类的定义和应用,定义,给定分类体系,将文本分到某个或者某几个类别中。,分类体系一般人工构造,政治、体育、军事,中美关系、恐怖事件,分类系统可以是层次结构,如yahoo!,分类模式,2类问题,属于或不属于(binary),多类问题,多个类别(multi-class),可拆分成2类问题,一个文本可以属于多类(multi-label),这里讲的分类主要基于内容,很多分类体系:Reuters分类体系、中图分类,应用,垃圾邮件的判定(spam or not spam),类别 spam,not-spam,新闻出版按照栏目分类,类别 政治,体育,军事,词性标注,类别 名词,动词,形容词,词义排歧,类别 词义1,词义2,计算机论文的领域,类别 ACM system,H:information systems,H.3:information retrieval and storage,文本分类的方法,人工方法和自动方法,人工方法,结果容易理解,足球 and 联赛,体育类,费时费力,难以保证一致性和准确性(40%左右的准确率),专家有时候凭空想象,知识工程的方法建立专家系统(80年代末期),自动的方法(学习),结果可能不易理解,快速,准确率相对高(准确率可达60%或者更高),来源于真实文本,可信度高,文本分类的过程,文本表示,训练过程,分类过程,训练文本,统计,统计量,特征表示,学习,分类器,新文本,特征表示,类别,特征抽取(feature extraction),预处理,去掉html一些tag标记,禁用词(stop words)去除、词根还原(stemming),(中文)分词、词性标注、短语识别、,词频统计,TF,i,j,:特征i在文档j中出现次数,词频(Term Frequency),DF,i,:所有文档集合中出现特征i的文档数目,文档频率(Document Frequency),数据清洗:去掉不合适的噪声文档或文档内垃圾数据,文本表示,向量空间模型,降维技术,特征选择(Feature Selection),特征重构(Re-parameterisation,如LSI),文本表示,向量空间模型(Vector Space Model),M个无序标引项t,i,(特征),词根/词/短语/其他,每个文档d,j,可以用标引项向量来表示,(a,1j,a,2j,a,Mj,),权重计算,N个训练文档,A,M*N,=(a,ij,),相似度比较,Cosine计算,内积计算,Term的粒度,Character,字:中,Word,词:中国,Phrase,短语:中国人民银行,Concept,概念,同义词:开心 高兴 兴奋,相关词cluster,word cluster:葛非/顾俊,N-gram,N元组:中国 国人 人民 民银 银行,某种规律性模式:比如某个window中出现的固定模式,David Lewis等一致地认为,:(英文分类中),使用优化合并后的,Words比较合适,权重计算方法,布尔权重(boolean weighting),a,ij,=1(TF,ij,0)or(TF,ij,=0)0,TFIDF型权重,TF:a,ij,=TF,ij,TF*IDF:a,ij,=TF,ij,*log(N/DF,i,),TFC:对上面进行归一化,LTC:降低TF的作用,基于熵概念的权重(Entropy weighting),称为term i的某种熵,如果term分布极度均匀:熵等于-1,只在一个文档中出现:熵等于0,特征选择(1),基于DF,Term的DF小于某个阈值去掉(太少,没有代表性),Term的DF大于某个阈值也去掉(太多,没有区分度),信息增益(Information Gain,IG):该term为整个分类所能提供的信息量(,不考虑任何特征的熵,和,考虑该特征后的熵,的差值),特征选择(2),term的某种熵:该值越大,说明分布越均匀,越有可能出现在较多的类别中;该值越小,说明分布越倾斜,词可能出现在较少的类别中,相对熵(not 交叉熵):也称为KL距离(Kullback-Leibler divergence),,反映了文本类别的概率分布和在出现了某个特定词汇条件下的文本类别的概率分布之间的距离,该值越大,词对文本类别分布的影响也大。,特征选择(3),2,统计量(念xi):度量两者(term和类别)独立性的缺乏程度,,2,越大,独立性越小,相关性越大(若ADBC,则类和词独立,N=A+B+C+D),互信息(Mutual Information):MI越大t和c共现程度越大,A,B,C,D,t,t,c,c,特征选择(4),Robertson&Sparck Jones公式,其他,Odds:,Term Strength:,特征选择方法的性能比较(1),特征选择方法的性能比较(2),特征选择方法的性能比较(3),YangYi-ming,特征重构,隐性语义索引(LSI),奇异值分解(SVD):A=(a,ij,)=U,V,T,A,M*N,U,M*R,R*R,(,对角阵,),V,N*R,R3N)J53N)J%F#CWySuOqhnd9;51=M(I$EYAUxRtjpflb8.40-K51+L(I$EYAUwRtjpflb7.40-K&G#DXzTvPrhoeka:630-K&G#CXzTvPrhndka:63N-K&G#CWyTvPrhnd9:63N)K53N)J%G#CWySuOqhnd9;52=M(I$EYAVxRtjpflb8.40-K*H!DXzTvPsioeka:63N)J%FZCWySuOqgmd9;51+M(I$EYAUwRtjpflb8.40-K51+L*I$EYAUwQsjpflb740-K&G#CXzTvPrhneka:630-K&G#CWyTvPrhnda:63N)K63N)J%G#CWySuOrhnd9;52=M(I$EYBVxRtjpflc8.40-K*H!DXzTvQsioeka:63N)J%F#CWySuOqgnd9;51+M(I$EYAUxRtjpflb8.40-K51+L(I$EYAUwQtjpflb740-K&G#DXzTvPrhneka:630-K&G#CWzTvPrhnda:63N-K640-K&G#CXzTvPrhndka:630-K&G#CWyTvPrhnda:63N)K63N)J%G#CWySuOrhnd9;52=M(I$EYAVxRtjpflc8.40-K*H!DXzTvQsioeka:63N)J%FZCWySuOqgnd9;51+M(I$EYAUxRtjpflb8.40-K51+L*I$EYAUwQtjpflb740-K&G#DXzTvPrhneka:630-K&G#CWzTvPrhnda:63N-K63N)J53N)J%F#CWySuOqgnd9;51=M(I$EYAUxRtjpflb8.40-K51+L(I$EYAUwQtjpflb7.40-K&G#DXzTvPrhoeka:630-K&G#CWzTvPrhndka:63N-K&G#CWyTvPrhnd9:640-K&G#DXzTvPrhneka:630-K&G#CWzTvPrhnda:63N-K63N)J53N)J%F#CWySuOqgnd9;51=M(I$EYAUxRtjpflb8.40-K51+L(I$EYAUwQtjpflb7.40-K&G#DXzTvPrhneka:630-K&G#CWzTvPrhndka:63N-K&G#CWySvPrhnd9:63N)J53N)J%F#CWySuOqhnd9;51=M(I$EYAVxRtjpflb8.40-K&H!DXzTvPsida:63N)K63N)J52=M(I$EYBVxRtjpflc8.40-L*H!DXzTvQsioeka:63N)J%F#CWySuOqgnd9;51=M(I$EYAUxRtjpflb8.40-K51+L(I$EYAUwQtjpflb7.40-K&G#DXzTvPrhneka:630-K&G#CWzTvPrhndka:63N-K&G#CWySvPrhnd9:63N)J53N)J%F#CWySuOqhnd9;51=M(I$EYAVxRtjpb730-K&G#CWzTvPrhnda:63N)K63N)J52=M(I$EYBVxRtjpflc8.40-L*H!DXzTvQsioeka:63N)J%F#CWySuOqgnd9;51=M(I$EYAUxRtjpflb8.40-K51+L(I$EYAUwQtjpflb7.40-K&G#DXzTvPrhneka:630-K&G#CWzTvPrhnda:63N-K&G#CWySvPrhnd9:63N)J530-K&G#CWyTvPrhnda:63N)K63N)J%G#CWySuOrhnd9;52=M(I$EYBVxRtjpflc8.40-K*H!DXzTvQsioeka:63N)J%F#CWySuOqgnd9;51+M(I$EYAUxRtjpflb8.40-K51+L(I$EYAUwQtjpflb740-K&G#DXzTvPrhneka:630-K&G#CWzTvPrhnda:63N-K&G#CWySvPrhnd9:63N)J540-K&G#CXzTvPrhneka:630-K&G#CWyTvPrhnda:63N)K63N)J%G#CWySuOrhnd9;52=M(I$EYBVxRtjpflc8.40-K*H!DXzTvQsioeka:63N)J%F#CWySuOqgnd9;51+M(I$EYAUxRtjpflb8.40-K51+L(I$EYAUwQtjpflb740-K&G#DXzTvPrhneka:63N)J%G#CWySuOqhnd9;51=M(I$EYAVxRtjpflb8.40-K*H!DXzTvPsioeka:640-K&G#CXzTvPrhndka:630-K&G#CWyTvPrhnda:63N)K63N)J%G#CWySuOrhnd9;52=M(I$EYAVxRtjpflc8.40-K*H!DXzTvQsioeka:63N)J%FZCWySuOqgnd9;51+M(I$EYAUsioflb73N-K&G#CWyTvPrhnd9:63N)J53N)J%G#CWySuOqhnd9;51=M(I$EYAVxRtjpflb8.40-K*H!DXzTvPsioeka:640-K&G#CXzTvPrhndka:630-K&G#CWyTvPrhnda:630-K&G#CWzTvPrhndka:63N-K&G#CWySvPrhnd9:63N)J53N)J%F#CWySuOqhnd9;51=M(I$EYAVxRtjpflb8.4-K&G#CWzTvPrhnda:63N)K63N)J52=M(I$EYBVxRtjpflc8.40-L*H!DXzTvQsioeka:63N)J%F#CWySuOqgnd9;51=M(I$EYAUxRtjpflb8.40-K51+L(I$EYAUwQtjpflb7.40-K&G#DXzTvPrhneka:630-K&G#CWzTvPrhndka:63N)J%FZCWySuOqgmd9;51+M(I$EYAUwRtjpflb8.40-K51+L*I$EYAUwQsjpflb740-K&G#CXzTvPrhneka:630-K&G#CWyTvPrhnda:63N)K63N)J%G#CWySuOrhnd9;52=M(I$EYBVxRtjpflc8.40-K*H!DXzTvQsioeka:63N)J%F#VxRuOqgmc8.51+L*H!EYAUwQsioflb73N-K&G#CWyTvPrhnd9:63N)K53N)J%G#CWySuOqhnd9;52=M(I$EYAVxRtjpflb8.40-K*H
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 图纸专区 > 课件教案


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!