LDA主题模型-白红宇

LDA主题模型

阅读量：4043 次

发布时间：2019-05-24

本文共 1005 字，大约阅读时间需要 3 分钟。

LDA是一种主题模型，它可以将文档集中每篇文档的主题以概率分布的形式给出，从而通过分析一些文档抽取出它们的主题（分布）出来后，便可以根据主题（分布）进行主题聚类或文本分类。同时，它是一种典型的词袋模型，即一篇文档是由一组词构成，词与词之间没有先后顺序的关系。此外，一篇文档可以包含多个主题，文档中每一个词都由其中的一个主题生成。

LDA最初被用来解决文本分类问题，本质上它是一个生成方法。比之前谈到的简单生成模型复杂，它假设了一篇文本、一个文本库的生成模型，然后从这个定义好的模型出发，通过机器学习的方法，学习这个模型的参数。最终，再根据这个学习到的模型来对每个词所属主题进行分类。它提出的实际上是一种以概率图模型为基础提取特征的方法

应用到推荐系统中：比如使用 LDA将用户查询的词汇对应到话题的维度，再推荐与该话题相关的内容。或者将文章映射到话题的维度，获得相似话题的文章，直接在这些文章的集合中进行推荐

实际上，LDA 的模型是贝叶斯网络的延伸——它的节点变成了概率分布，甚至控制概率分布的分布

知道理解LDA，可以分为下述5个步骤：

一个函数：gamma函数

四个分布：二项分布、多项分布、beta分布、Dirichlet分布

一个概念和一个理念：共轭先验和贝叶斯框架

两个模型：pLSA、LDA

一个采样：Gibbs采样

在LDA模型中，一篇文档生成的方式如下：

1从狄利克雷分布中取样生成文档 i 的主题分布； 2从主题的多项式分布中取样生成文档i第 j 个词的主题

3从狄利克雷分布中取样生成主题对应的词语分布； 4从词语的多项式分布中采样最终生成词语

5类似Beta分布是二项式分布的共轭先验概率分布；6狄利克雷分布（Dirichlet分布）是多项式分布的共轭先验概率分布。

LLDA

LLDA比较适合多标签的分类问题（本身它也是基于这个角度提出的）。原因是，LLDA在应用于监督学习的时候，与LDA的区别只在于将文档由所有topic的混合分布修改为了该文档的lables的混合分布，Dirichlet的α参数也有原来的K（topic个数）维降到了Md（文档的label个数）维。但是，当每个文档都只有一个label的时候，也就是说相当于每个文档只有一个topic，此时，doc-topic不再是多项式分布，先验也不适合用Dirichlet了。LDA的单文档对应多topic的假设就没用了。

转载地址：http://elhdi.baihongyu.com/

你可能感兴趣的文章