本文共 1005 字,大约阅读时间需要 3 分钟。
LDA是一种主题模型,它可以将文档集 中每篇文档的主题以概率分布的形式给出,从而通过分析一些文档抽取出它们的主题(分布)出来后,便可以根据主题(分布)进行主题聚类或文本分类。同时,它是一种典型的词袋模型,即一篇文档是由一组词构成,词与词之间没有先后顺序的关系。 此外,一篇文档可以包含多个主题,文档中每一个词都由其中的一个主题生成。
LDA最初被用来解决文本分类问题,本质上它是一个生成方法。比之前谈到的简单生成模型复杂,它假设了一篇文本、一个文本库的生成模型,然后从这个定义好的模型出发,通过机器学习的方法,学习这个模型的参数。最终,再根据这个学习到的模型来对每个词所属主题进行分类。它提出的实际上是一种以概率图模型为基础提取特征的方法
应用到推荐系统中:比如使用 LDA将用户查询的词汇对应到话题的维度,再推荐与该话题相关的内容。或者将文章映射到话题的维度,获得相似话题的文章,直接在这些文章的集合中进行推荐
实际上,LDA 的模型是贝叶斯网络的延伸——它的节点变成了概率分布,甚至控制概率分布的分布
在LDA模型中,一篇文档生成的方式如下:
1从狄利克雷分布中取样生成文档 i 的主题分布; 2从主题的多项式分布中取样生成文档i第 j 个词的主题
3从狄利克雷分布中取样生成主题对应的词语分布; 4从词语的多项式分布中采样最终生成词语
5类似Beta分布是二项式分布的共轭先验概率分布;6狄利克雷分布(Dirichlet分布)是多项式分布的共轭先验概率分布。
LLDA比较适合多标签的分类问题(本身它也是基于这个角度提出的)。原因是,LLDA在应用于监督学习的时候,与LDA的区别只在于将文档由所有topic的混合分布修改为了该文档的lables的混合分布,Dirichlet的α参数也有原来的K(topic个数)维降到了Md(文档的label个数)维。但是,当每个文档都只有一个label的时候,也就是说相当于每个文档只有一个topic,此时,doc-topic不再是多项式分布,先验也不适合用Dirichlet了。LDA的单文档对应多topic的假设就没用了。
转载地址:http://elhdi.baihongyu.com/