主题模型综述课件

资源描述

,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,主题模型概述,THOMAS HOFMANN,Department of Computer Science, Brown University, Providence, US,A,Unsupervised Learning by Probabilistic LatentSemantic Analysis,Content,Latent semantic analysis(LSA),SVD,Probabilistic latent semantic analysis(PLSA),Expect Maximum(EM),LDA(Latent Dirichlet Analysis),各种变种及应用（扩展部分）,LSA,主要用于文本分析,思想：找低阶的矩阵对terms-doc矩阵进行分解，得到doc的潜在语义,可以处理多义词和同义词的问题,求解方式：SVD（奇异值分解）,SVD奇异值分解,词项文档矩阵做SVD分解,求解方法：,迭代法、并行方法、求NN的特征值法,PLSA,Generate model,其中：,P(di),：表示生成这篇文章的先验概率,P(zk|di),：表示在,di,这篇文章中选择主题,zk,的概率,P(wj|zk),：表示在,Zk,主题下选择单词,wj,的概率,最大似然函数,EM（期望最大化算法）,EM算法的步骤是：,(1)E步骤：求隐含变量Given当前估计的参数条件下的后验概率。,(2)M步骤：最大化Complete data对数似然函数的期望，此时我们使用E步骤里计算的隐含变量的后验概率，得到新的参数值。,两步迭代进行直到收敛。,解决方法（MLE),拉格朗日乘子法,求解方程组得到,LDA,涉及到的数学知识,概率,条件概率、贝叶斯、,GammaBetaDirichlet,分布、共轭分布、随机过程之马尔科夫链,随机抽样：,MCMC,、,GibbsSamples,

展开阅读全文

主题模型综述课件

最新文档