PLSA详解推导

编程

更新时间：2024-02-0843

admin管理员组
文章数量:1516870

PLSA详解推导

PLSA的概率图模型如下

其中D代表文档，Z代表隐含类别或者主题，W为观察到的单词，表示单词出现在文档的概率，表示文档中出现主题下的单词的概率，给定主题出现单词的概率。并且每个主题在所有词项上服从Multinomial 分布，每个文档在所有主题上服从Multinomial 分布。整个文档的生成过程是这样的：

(1) 以的概率选中文档；

(2) 以的概率选中主题；

(3) 以的概率产生一个单词。

我们可以观察到的数据就是对，而是隐含变量。的联合分布为

而和分布对应了两组Multinomial 分布，我们需要估计这两组分布的参数。下面给出用EM算法估计PLSA参数的详细推导过程。

3 Estimate parameters in PLSA by EM

如文本语言模型的参数估计-最大似然估计、MAP及贝叶斯估计一文所述，常用的参数估计方法有MLE、MAP、贝叶斯估计等等。但是在PLSA中，如果我们试图直接用MLE来估计参数，就会得到似然函数（下式右面式子将概率p（di）提出，因为P（di）是常数不影响最大化似然概率过程）

其中是单词出现在文档中的次数。注意这是一个关于和的函数，一共有N*K + M*K个自变量，如果直接对这些自变量求偏导数，我们会发现由于自变量包含在对数和中，这个方程的求解很困难。因此对于这样的包含“隐含变量”或者“缺失数据”的概率模型参数估计问题，我们采用EM算法。

EM算法的步骤是：

(1)E步骤：求隐含变量Given当前估计的参数条件下的后验概率。

(2)M步骤：最大化Complete data对数似然函数的期望，此时我们使用E步骤里计算的隐含变量的后验概率，得到新的参数值。

两步迭代进行直到收敛。

先解释一下什么是Incomplete data和complete data。Zhai老师在一篇经典的EM算法Notes中讲到，当原始数据的似然函数很复杂时，我们通过增加一些隐含变量来增强我们的数据，得到“complete data”,而“complete data”的似然函数更加简单，方便求极大值。于是，原始的数据就成了“incomplete data”。我们将会看到，我们可以通过最大化“complete data”似然函数的期望来最大化"incomplete data"的似然函数，以便得到求似然函数最大值更为简单的计算途径。

针对我们PLSA参数估计问题，在E步骤中，直接使用贝叶斯公式计算隐含变量在当前参数取值条件下的后验概率，有

在这个步骤中，我们假定所有的和都是已知的，因为初始时随机赋值，后面迭代的过程中取前一轮M步骤中得到的参数值。

在M步骤中，我们最大化Complete data对数似然函数的期望。在PLSA中，Incomplete data 是观察到的，隐含变量是主题，那么complete data就是三元组，其期望是（右式log里面其实有分母，但因为不影响求偏导所以舍去。）

注意这里是已知的，取的是前面E步骤里面的估计值。下面我们来最大化期望，这又是一个多元函数求极值的问题，可以用拉格朗日乘数法。拉格朗日乘数法可以把条件极值问题转化为无条件极值问题，在PLSA中目标函数就是,约束条件是

（等式1,2)

由此我们可以写出拉格朗日函数

这是一个关于和的函数，分别对其求偏导数，我们可以得到

等式（3，4）

注意这里进行过方程两边同时乘以和的变形，联立上面1，2,3,4组方程，我们就可以解出M步骤中通过最大化期望估计出的新的参数值

解方程组的关键在于先求出,其实只需要做一个加和运算就可以把的系数都化成1，后面就好计算了。

本文标签： PLSA详解推导

版权声明：本文标题：PLSA详解推导内容由网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：https://www.betaflare.com/biancheng/1707357493a721499.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

编程频道|软件玩家 - 软件改变生活！

PLSA详解推导

PLSA详解推导

更多相关文章

PLSA详解推导

发表评论

推荐文章

如何应对Linux系统下的dnf编译过程中的难题：makecache.timer错误解析

星露谷MOD新手必备：详解DLL初始化错误，确保顺畅启动新游戏体验

手机数据线连接电脑，网络共享不求人

一键操作：快速关闭让你厌倦的Adobe Flash Player开机提示

从Lucide图标集合探索箭头的方向感与导航艺术

热门文章

XP系统下的IE浏览器修复与全新安装指南

搞定T450s的蓝牙问题：从开启到关闭，步骤全解析

在Win7中摆脱顽固的chkdsk故障，轻松卸载Flash组件

破解msvcp110.dll丢失之谜：简单的步骤让你的电脑顺畅如新！

MOSS 2007大纲安装：Flash中心全面解析

YimMenu游戏加速器：Flash中心玩家必学的增强技巧，解锁无限可能

如何干净地摆脱360安全浏览器

E盘大变身，优化存储布局，释放硬盘，提升系统运行速度

当心！U盘中毒了，跟着指南找回丢失的文件

Android 10.0 MediaPlayer坏文件描述符？别怕，这里有解决办法！

最新文章

金融建模中Excel与VBA的超级组合拳

现代计算的新篇章：把FEMCFD求解器封装为PyTorch或JAX函数

突破视觉强化学习训练的‘视觉’障碍，MJX带来高效方案

Excel高手必备：TL431可调电压基准源的求解秘技

高性能物理世界：MuJoCo XLA在Unity中的应用揭秘

Excel宏数量爆炸，开机慢如乌龟？轻松破解攻略！

Open-AutoGLM性能瓶颈大揭秘：破解编译三大障碍

MuJoCo高手之路：从入门到精通的进阶指南

深度学习加速新纪元：张量引擎TBE与深度学习编译器，加速你的训练与推理

MJX秘籍：5倍加速技巧，改写强化学习训练规则！

清华同方超锐L60P 龙芯 3A600032GB1TB集显麒麟统信永久版系统参数报价

清华同方超锐L60P 龙芯 3A600016GB512GB集显KOS麒麟系统试用版参数报价

清华同方超锐L60P 龙芯 3A600032GB1TB集显麒麟统信永久版系统+WPS参数报价

清华同方超锐L60P 龙芯 3A600016GB512GB集显麒麟统信永久版系统参数报价

联想开天X1f G1d 飞腾D3000M16GB1TB集显国防版麒麟统信系统参数报价