资源描述
,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,主题模型概述,THOMAS HOFMANN,Department of Computer Science, Brown University, Providence, US,A,Unsupervised Learning by Probabilistic LatentSemantic Analysis,Content,Latent semantic analysis(LSA),SVD,Probabilistic latent semantic analysis(PLSA),Expect Maximum(EM),LDA(Latent Dirichlet Analysis),各种变种及应用(扩展部分),LSA,主要用于文本分析,思想:找低阶的矩阵对terms-doc矩阵进行分解,得到doc的潜在语义,可以处理多义词和同义词的问题,求解方式:SVD(奇异值分解),SVD奇异值分解,词项文档矩阵做SVD分解,求解方法:,迭代法、并行方法、求NN的特征值法,PLSA,Generate model,其中:,P(di),:表示生成这篇文章的先验概率,P(zk|di),:表示在,di,这篇文章中选择主题,zk,的概率,P(wj|zk),:表示在,Zk,主题下选择单词,wj,的概率,最大似然函数,EM(期望最大化算法),EM算法的步骤是:,(1)E步骤:求隐含变量Given当前估计的参数条件下的后验概率。,(2)M步骤:最大化Complete data对数似然函数的期望,此时我们使用E步骤里计算的隐含变量的后验概率,得到新的参数值。,两步迭代进行直到收敛。,解决方法(MLE),拉格朗日乘子法,求解方程组得到,LDA,涉及到的数学知识,概率,条件概率、贝叶斯、,GammaBetaDirichlet,分布、共轭分布、随机过程之马尔科夫链,随机抽样:,MCMC,、,GibbsSamples,
展开阅读全文