博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
LDA主题模型
阅读量:4043 次
发布时间:2019-05-24

本文共 1005 字,大约阅读时间需要 3 分钟。

LDA是一种主题模型,它可以将文档集 中每篇文档的主题以概率分布的形式给出,从而通过分析一些文档抽取出它们的主题(分布)出来后,便可以根据主题(分布)进行主题聚类或文本分类。同时,它是一种典型的词袋模型,即一篇文档是由一组词构成,词与词之间没有先后顺序的关系。    此外,一篇文档可以包含多个主题,文档中每一个词都由其中的一个主题生成。

 

LDA最初被用来解决文本分类问题,本质上它是一个生成方法。比之前谈到的简单生成模型复杂,它假设了一篇文本、一个文本库的生成模型,然后从这个定义好的模型出发,通过机器学习的方法,学习这个模型的参数。最终,再根据这个学习到的模型来对每个词所属主题进行分类。它提出的实际上是一种以概率图模型为基础提取特征的方法

应用到推荐系统中:比如使用 LDA将用户查询的词汇对应到话题的维度,再推荐与该话题相关的内容。或者将文章映射到话题的维度,获得相似话题的文章,直接在这些文章的集合中进行推荐

实际上,LDA 的模型是贝叶斯网络的延伸——它的节点变成了概率分布,甚至控制概率分布的分布

知道理解LDA,可以分为下述5个步骤:

  1. 一个函数:gamma函数
  2. 四个分布:二项分布、多项分布、beta分布、Dirichlet分布
  3. 一个概念和一个理念:共轭先验和贝叶斯框架
  4. 两个模型:pLSA、LDA
  5. 一个采样:Gibbs采样

   在LDA模型中,一篇文档生成的方式如下:

    1从狄利克雷分布中取样生成文档 i 的主题分布;  2从主题的多项式分布中取样生成文档i第 j 个词的主题

    3从狄利克雷分布中取样生成主题对应的词语分布; 4从词语的多项式分布中采样最终生成词语

5类似Beta分布是二项式分布的共轭先验概率分布;6狄利克雷分布(Dirichlet分布)是多项式分布的共轭先验概率分布。

LLDA

LLDA比较适合多标签的分类问题(本身它也是基于这个角度提出的)。原因是,LLDA在应用于监督学习的时候,与LDA的区别只在于将文档由所有topic的混合分布修改为了该文档的lables的混合分布,Dirichlet的α参数也有原来的K(topic个数)维降到了Md(文档的label个数)维。但是,当每个文档都只有一个label的时候,也就是说相当于每个文档只有一个topic,此时,doc-topic不再是多项式分布,先验也不适合用Dirichlet了。LDA的单文档对应多topic的假设就没用了。

转载地址:http://elhdi.baihongyu.com/

你可能感兴趣的文章
[茶余饭后]10大毕业生必听得歌曲
查看>>
gdb调试命令的三种调试方式和简单命令介绍
查看>>
C++程序员的几种境界
查看>>
VC++ MFC SQL ADO数据库访问技术使用的基本步骤及方法
查看>>
VUE-Vue.js之$refs,父组件访问、修改子组件中 的数据
查看>>
Vue-子组件改变父级组件的信息
查看>>
Python自动化之pytest常用插件
查看>>
Python自动化之pytest框架使用详解
查看>>
【正则表达式】以个人的理解帮助大家认识正则表达式
查看>>
性能调优之iostat命令详解
查看>>
性能调优之iftop命令详解
查看>>
非关系型数据库(nosql)介绍
查看>>
移动端自动化测试-Windows-Android-Appium环境搭建
查看>>
Xpath使用方法
查看>>
移动端自动化测试-Mac-IOS-Appium环境搭建
查看>>
Selenium之前世今生
查看>>
Selenium-WebDriverApi接口详解
查看>>
Selenium-ActionChains Api接口详解
查看>>
Selenium-Switch与SelectApi接口详解
查看>>
Selenium-Css Selector使用方法
查看>>