星期二, 五月 05, 2009

Topic Models阅读心得


5/5/09
1.为什么要提出Topic Model?
我们在处理样本时需要提取特征,究竟什么是好的特征呢。有些时候,我们提取的特征只是对已观察到的样本具有良好的解释,但对于未知样本则无能为力,形成过拟合现象。这一问题的原因可能是所抽取的特征原问题的本质特征,而是一些“巧合”:刚好这些“巧合”的特征和样本的类别或者待考查的解释相一致,而问题的本质特征则被淹没在大量的这些“巧合”特征当中了。举个例子,去养鸡场考察和产蛋有关的特征,收集到如饲料配比,光照强度,湿度,温度,放养密度,鸡龄,羽毛颜色,鸡爪长度等特征,得到一个模型,但这组特征却无法解释另一个养鸡场的鸡从不下蛋的原因。真正的原因是,这些不下蛋的鸡都是公鸡,而统计数据的那个养鸡场的鸡都是母鸡!鸡的性别这一特征还是相对明显的,实际问题中还有许多特征无法直接观测得到,而这些特征又是很有用的——它们的分布相对稳定,与待考查的量的关系也比较稳定,并且受到采样数据集的影响较小,但对所考察目标的影响较大。如何找到这些隐含的特征就是Topic Model的主要目标。
2.Topic如何起作用?
画家在画油画时需要用到多种色彩,但绝大多数用到的色彩是不能直接找到对应的颜料的——因为颜色的数量是无穷多的。画家们对此并非无能为力,他们可以通过用已有的颜料搭配混合的方式调出所需要的各种颜色。在文本处理领域,可以做如下类比:将一个document看成是一幅模糊的油画,这幅画只有一个颜色,是由一些元素颜料按照一定配比混合而成的。比较两个document是否相似,就可以比较这对应的两幅画的颜色是否相似。下面将问题进一步简化,将不同长度的document看成是不同容量的盆,document中的word看成是盆中盛的彩色小球,每个小球上标记出所对应的word,每种颜色代表一个topic。前面所说的一幅油画相当于这里面的一个盆,要比较两个document是否相似,就是要比较这两个盆中颜色的分布是否相似。不幸的是,对文章的topic来说,计算机都是色盲——topic是隐含变量,不能直接观测得到。
3.怎样推断Topic?
色盲也可以知道交通红绿灯变色了没有——可以观察其他人的行为。这里用到了一个先验假设:其他人遵从交通规则且能分辨红绿。回到原问题上,我们也可以做一个假设:一个document中的topic分布会倾向于集中到某几个topic上——正如绘画调色时,一般只用到几种颜料来调色而非将所有颜料都用到一样。根据这条假设可以得知,经常同时出现在不同的document中的词更有可能来自于同一个topic;一个词在不同topic上的分布也尽可能集中于少数几个topic上。接下来,可以采用EM算法:先随机初始化一组分布,然后迭代式调整参数,使得topic的分布在word上和在document上都尽可能符合先验假设及观测数据。
4.杂感
潜在变量或隐含变量在平时也经常被提到,这些变量不能或不便被直接观察到,但如果假设其存在,则会比较方便地解释一些复杂现象。比如阴阳、五行、八卦等等都是些潜在变量,只不过这些潜在变量并不总是奏效。但另一组潜在变量带来了科学上的发现——化学元素。化学元素的发现也是通过假设潜在变量的存在并经过实证而得到的。此外还有海王星的发现。由于天王星的轨道并不符合预先的计算,但是通过引入一个假想的大行星就比较好解释观测与理论不符的现象了,结果通过在计算得到的相应位置上的观测,果然发现了一个新的大行星——海王星。

3 条评论:

Bill Lang 说...

讲得不错~!

astro 说...

谢谢师兄~

Unknown 说...

Hi, 你们实验室现在开始这方面研究了?:)