星期四, 十月 08, 2009

歌词

If I were a painting
作词:Skip Ewing; Don Sampson
翻译:心虫
修改:astro
演唱:Clinton Gregory

If I were a painting 假若我是一幅画
Captured on canvas 俘获在帆布里
Alone in the portrait I would stand 肖像中茕茕孑立
And brush strokes bold 笔锋突兀
Yet soft as a whisper 却温婉若耳边低语
The work of a feminine hand 这纤纤之手的杰作啊
Caught in a still life 囚禁着静止的生命
Surrounded by shadows 阴影缭绕
And lost in a background of blue 又在一片幽兰中失迷
If I were a painting 假若我是一幅画
My price would be pain 代价便是楚戚
And the artist would have to be you 而作者定然是你
I imagine the colors 我猜那色彩
Would all run together 会融到一起
If you ever allowed me to cry 只要你允我哭泣
So don't paint the tears 哦,请别画那泪水
Just let me remember me 就让我把自己印记
Without you in my eyes 就当我的眼中没你
It's only the frame 若不是有画框
That holds me together 还在四周环抱
Or else I would be falling apart 我早已分崩离析
If I were a painting 假若我真的是一幅画啊
Then I wouldn't feel 我就不会有感觉
And you wouldn't be breaking my heart 也不会为你心碎难已

星期日, 五月 17, 2009

读书破万卷

阅读文献是科研工作者的家常便饭,也是一项基本功。在修炼这项基本功的过程中有些体会,暂且搁在这里,权当到此一游的印记 吧。
阅读有个从量变到质变的过程。刚开始接触某个领域的时候,对其中的名词、说法、套路之类的东西比较陌生,随着阅读量的增大,那些频繁出现的内容便刻画了该领域经常关注的对象。于是重点浮出水面,脉络开始清晰,对领域的结构也逐渐有了认识。而后的阅读便在这一框架下得到加速:大部分文章是对已有知识的重新组合。因此在外行看来眼花缭乱的热闹在内行眼里其新颖程度仅是门道的那一部分。知识体系的构建是靠阅读量的积累磨练出来的。就好比统计样本必须足够充分才能从中推断出可靠信息。在小样本集上推断则非常困难,得到的“创新”也常常是经不起推敲的。
一般来说,学习的过程是由浅入深,由表及里,由此及彼,由点到面而层层递进的过程,最终达到举一反三,触类旁通的境界。
在阅读选材方面,对于一个想深入研究某个领域而时间又相对充裕的人来说,最好先读教材,再读专著,进而读期刊和会议文章。这四类材料各有特点,其中,教材的覆盖面最为全面,而且由于其教学目的,教材的可读性最好。另外,教材中的内容一般都是被公认的和最具权威性的知识,经过了时间的考验才被慎重地选择进入课堂。因此,在这四类读物当中,教材的可信度最高。然而教材也面临诸如篇幅和学时等方面的限制,内容深度与新颖程度可能不够,专著则弥补了这方面的不足。专著一般出现在一个子领域的研究初步成熟的阶段,往往是近年研究工作的集中总结,其内容多数经过了验证并具有一定代表性。通过读专著能感受到这个领域研究兴趣的变迁。期刊与前两者的区别在于,期刊中的文章立足于领域前沿,是文章作者亲身探索的结果,着重于突出其内容自身,为原创性工作,而教材和专著中内容多为作者转述他人工作,在这一点上,会议文章和期刊文章比较相似。但会议文章也有自己的特点,它以交流新思路为目的,其工作不必足够完整,一个初步的结果即可以在会议上讨论,可见会议文章的最大特点就是观点新。由于审稿周期短,甚至还可能有错误。学者们也是希望通过会议上的交流,探讨已有成果,启发新思路。往往一项研究开始于某次会议上的讨论,并在下次或下几次会议上进行检验,最终以期刊文章的形式发表。这也是为什么有经验的科研人员一般比较关注会议的原因。一般来说,会议文章相对较杂,其内容重点在于新思路而往往将基础知识一带而过,对于科研新手而言难于依靠阅读会议文章进行系统学习。科研成手则有一定的判断能力,会辨别文章中哪些可取,哪些不成熟,哪些被夸大,哪些是错误,能够做到去粗取精,去伪存真。因此对于入门者来说,一个比较合适的套路是从教材起步,逐渐掌握领域内的知识,打好基础再去创新。

星期二, 五月 05, 2009

Topic Models阅读心得


5/5/09
1.为什么要提出Topic Model?
我们在处理样本时需要提取特征,究竟什么是好的特征呢。有些时候,我们提取的特征只是对已观察到的样本具有良好的解释,但对于未知样本则无能为力,形成过拟合现象。这一问题的原因可能是所抽取的特征原问题的本质特征,而是一些“巧合”:刚好这些“巧合”的特征和样本的类别或者待考查的解释相一致,而问题的本质特征则被淹没在大量的这些“巧合”特征当中了。举个例子,去养鸡场考察和产蛋有关的特征,收集到如饲料配比,光照强度,湿度,温度,放养密度,鸡龄,羽毛颜色,鸡爪长度等特征,得到一个模型,但这组特征却无法解释另一个养鸡场的鸡从不下蛋的原因。真正的原因是,这些不下蛋的鸡都是公鸡,而统计数据的那个养鸡场的鸡都是母鸡!鸡的性别这一特征还是相对明显的,实际问题中还有许多特征无法直接观测得到,而这些特征又是很有用的——它们的分布相对稳定,与待考查的量的关系也比较稳定,并且受到采样数据集的影响较小,但对所考察目标的影响较大。如何找到这些隐含的特征就是Topic Model的主要目标。
2.Topic如何起作用?
画家在画油画时需要用到多种色彩,但绝大多数用到的色彩是不能直接找到对应的颜料的——因为颜色的数量是无穷多的。画家们对此并非无能为力,他们可以通过用已有的颜料搭配混合的方式调出所需要的各种颜色。在文本处理领域,可以做如下类比:将一个document看成是一幅模糊的油画,这幅画只有一个颜色,是由一些元素颜料按照一定配比混合而成的。比较两个document是否相似,就可以比较这对应的两幅画的颜色是否相似。下面将问题进一步简化,将不同长度的document看成是不同容量的盆,document中的word看成是盆中盛的彩色小球,每个小球上标记出所对应的word,每种颜色代表一个topic。前面所说的一幅油画相当于这里面的一个盆,要比较两个document是否相似,就是要比较这两个盆中颜色的分布是否相似。不幸的是,对文章的topic来说,计算机都是色盲——topic是隐含变量,不能直接观测得到。
3.怎样推断Topic?
色盲也可以知道交通红绿灯变色了没有——可以观察其他人的行为。这里用到了一个先验假设:其他人遵从交通规则且能分辨红绿。回到原问题上,我们也可以做一个假设:一个document中的topic分布会倾向于集中到某几个topic上——正如绘画调色时,一般只用到几种颜料来调色而非将所有颜料都用到一样。根据这条假设可以得知,经常同时出现在不同的document中的词更有可能来自于同一个topic;一个词在不同topic上的分布也尽可能集中于少数几个topic上。接下来,可以采用EM算法:先随机初始化一组分布,然后迭代式调整参数,使得topic的分布在word上和在document上都尽可能符合先验假设及观测数据。
4.杂感
潜在变量或隐含变量在平时也经常被提到,这些变量不能或不便被直接观察到,但如果假设其存在,则会比较方便地解释一些复杂现象。比如阴阳、五行、八卦等等都是些潜在变量,只不过这些潜在变量并不总是奏效。但另一组潜在变量带来了科学上的发现——化学元素。化学元素的发现也是通过假设潜在变量的存在并经过实证而得到的。此外还有海王星的发现。由于天王星的轨道并不符合预先的计算,但是通过引入一个假想的大行星就比较好解释观测与理论不符的现象了,结果通过在计算得到的相应位置上的观测,果然发现了一个新的大行星——海王星。