转到 SAE 上建立新博客吧!毕竟 Blogger 不是随时能访问的。
新博客的地址是:gaochaod.sinaapp.com
欢迎访问。
otter's blog
otter's Picture&Text show
2010年4月10日星期六
刘群研究经历中的酸甜苦辣
研究经历 您查询的关键词是:知网 相似度计算 java 代码
。如果打开速度慢,可以尝试快速版;如果想保存快照,可以添加到搜藏。(百度和网页http://mtgroup.ict.ac.cn/~liuqun/research/experience.htm的作者无关,不对其内容负责。百度快照谨为网络故障时之索引,不代表被搜索网站的即时页面。)
计算所与北大往事回顾
刘群
序
引言
在二室
攻读硕士学位
开始独立研究·跟北大计算语言所合作
计算所改革·跟李所长第一次接触
二室的一些人和事
对智能中心的印象
在软件室
计算所的新气象
研究工作进展
软件室的一些事情·跟李所长第二次接触
在数字化室
研究工作进展和取得的成绩
获得博士学位
跟李所长的第三第四次接触
结语
后记
序
这篇文章,本来是为计算所建所50周年写的一篇稿子,标题是“计算所往事回顾”,发表在计算所网站建所50周年的专栏上。因为我这些年来的工作与北大计算语言所有密不可分的联系,我在写初稿的时候,花了很大篇幅介绍我跟北大计算语言所合作的情况。初稿写成后,我请了很多人帮我看,包括北大计算语言所的俞老师、詹卫东、常宝宝等人,他们看到我对以前的这些事情的回忆都很感慨,也给了我很多的鼓励。后来在计算所网站上正式发表时,考虑到这篇稿子毕竟是为计算所建所50周年而写的,我与北大合作的这些事情与这个主题关联不大,所以就忍痛删掉了很多这方面的文字,另外也删掉了一些比较具体的技术细节。现在征得俞老师同意,把这篇稿子的全文发表在“燕园时语”上,补上了被删除的部分,标题改成“计算所与北大往事回顾”。不过原来文章是以我在计算所的经历为主线来写的,这一点没有改动。谨以此文献给这十几年来跟我一起在自然语言处理和机器翻译领域并肩战斗过的老师、同学和朋友们。借用詹卫东给我的邮件中的一句话:衷心祝愿我们这些一起战斗过的NLPers一切顺利。
引言
计算所宣传外联办的祁威跟我约稿,要我为计算所建所50周年专刊写篇稿子,回忆一下我所经历的一些事情。她的来信引起了我对往事的一些回忆。我是1989年进入计算所的硕士研究生,毕业后一直留所工作至今。比起计算所的老同志来说,我在所里的时间并不算太长。不过在现在的计算所,放眼望去,到处都是生气勃勃的年轻人,与计算所的绝大部分人比起来,我也确实应该算得上是“老”员工了。不算在研究生院(玉泉路)学习的一年时间,我在计算所已经工作了整整16个年头。虽然我只是计算所一个普通研究人员,计算所这些年来发生的一些重大事件,我们并不处在这些事件的中心,但对于我们具体的每个人来说,还有很多的小事,同样值得我们去回味。也许正是这些小事,可以从一个侧面,佐证我们计算所这些年来辉煌而又曲折的发展历史吧。
在二室
先说说我自己的经历吧。
攻读硕士学位
我是1989年作为免试推荐的硕士生进入计算所的。当时报的导师是高庆狮院士(当时还叫学部委员)。进所的时候,因为高院士出国未回,我的导师改成了张祥研究员,也就是当时计算所二室的主任。在玉泉路学习的一年很快就过去了,回到所里的时候,我和师妹韩向阳都被分到了陈肇雄博士领导的机器翻译课题组,师弟潘伟被分到了蒋贤春负责的汉字识别课题组。
我刚到计算所二室的时候,张祥老师还是863专家组的组长,那时二室还是非常红火的。1990年我们刚从玉泉路回所的时候,赶上在京西宾馆举行EST863工作站的鉴定会,规模非常大。
接下来的两年,我开始在陈肇雄课题组研究机器翻译,这个课题组承担了863的“智能型机器翻译”项目,课题经费是74万元人民币。当时参加这个项目的,除了计算所的人以外,还有很多合作单位,包括北京科技大学、中国科技情报所、珠海科健公司、北京工业大学等等,研究开发工作进行得非常红火。这段时间的工作,使我对计算语言学和机器翻译的研究发生了极大的兴趣。在我以后的经历中,虽然换过好几个地方,但我的研究工作一直集中在这个领域,没有离开过。
1992年,我顺利完成硕士学习和硕士论文(我的论文主要是做其中的知识库管理系统),获得了硕士学位。也就在这个时期,机器翻译课题组的工作取得了重大的进展。课题组和香港权智公司签署了协议,权智公司投入74万美元,课题组投入机器翻译技术,双方共同合作成立了“科智”公司,将系统植入权智公司的“快译通”产品之中。由于权智公司的产品早已行销全世界,产品的销路完全不成问题,而这又是全世界第一个带有全文翻译功能的电子辞典产品,这是一次非常好的合作,引起了轰动。从此以后,陈肇雄的事业开始走上了快车道,先是于1993年和1995年分别获得中科院科技进步一等奖和国家科技进步一等奖,而后又在1997年离开计算所,成立了华建公司。华建的机器翻译产品也一直是市场上最好的机器翻译产品之一,这是后话了。
也就在我们毕业的时候,陈肇雄脱离了计算所二室,成立了计算所机器翻译中心。我的师妹韩向阳跟陈肇雄去了机器翻译中心,师弟潘伟去了美国,而我则选择留在了二室。
开始独立研究·跟北大计算语言所合作
硕士毕业后,我就一直在考虑今后的研究方向。导师张祥给了我很大的选择余地,让我自己做出选择。经过一段时间考虑,我还是决定继续做机器翻译研究。我选择的课题是汉英机器翻译。之所以选择这个课题,是因为当时陈肇雄做的主要是英汉翻译,我不希望做的工作跟他们重复,另外,从研究角度说,汉英机器翻译难度更大,对汉语研究来说意义也更大。张祥老师同意我的选择,并许诺给我尽可能的支持。方向定下来以后,我就开始埋头考虑设计方案,到1993年上半年,初步的设计方案已经成型,系统设计已经详细到了模块一级,词典、规则库的定义也都已经完成。这时我开始考虑寻找合作者。由于做汉英翻译的研究主要需要寻找汉语语言学方面的合作者,我首先想到了北京大学计算语言学研究所的俞士汶老师。俞士汶老师是我硕士论文答辩的主席,他的学者风度给我留下了深刻印象。我主动找上门去跟俞老师讨论合作事宜。现在想起来确实冒昧。那时我还是一个刚刚硕士毕业的学生,俞老师已经是成名的学者,而我又要求进行以我为主的合作,现在看起来,几乎是一件不太可能的事情。没想到这次合作竟然奠定了我们以后长期合作的基础,我也最终成为了俞老师的博士研究生。这是后话,下面还会说到。
当时俞老师在仔细听取了我的设想以后,初步同意了合作,但希望能够在仔细研究我的设计方案后再做出最后决定。我回去后,就把总体的设计方案交给了俞老师,其中词典设计和规则库设计都是用类似BNF范式的形式描述的。俞老师在仔细研究了我的方案后,完全同意了跟我合作,我们签署了一个简单的合作协议,由计算所提供很少的一笔研究经费和一台计算机,北大协助我按照我的设计方案,完成词典和语料库的设计和调试,双方共同合作开发一个汉英机器翻译系统。合作期限是1993年8月到1995年1月。
协议签署后,我们就分头开始了开发。我主要进行软件开发,北大一个小组在我的指导下进行词典和规则库的开发。当时北大这个小组由当时在北大读硕士的周强负责,参加的人有段惠明老师、王惠老师、硕士生和博士生詹卫东、博士生常宝宝、硕士生陶晓鹏等人。到1995年,一个原型系统已经完成,这个系统运行于Sun工作站之上,词典规模只有5000条。虽然这个原型系统还很简单,但已经具备了一个机器翻译程序所需的基本功能。初步的成功让我们备受鼓舞,我和俞老师都同意将这项合作继续进行下去,开发一个初步实用的汉英机器翻译系统。
1996年和1997年,我们又就这个项目跟北大签署过两个补充协议,一方面是继续合作,另一方面,我们以非常优惠的价格购买了北大开发的一些语言资源和工具。这一阶段,除了软件的继续完善以外,还有两件工作量比较大的事情,一个是将系统从Unix平台移植到Windows平台,另一个是词典的开发。词典的知识来源主要有三个部分。第一部分是汉语的语法信息,主要来源于北大提供的汉语语法信息词典。第二部分是词的语义信息,是我们课题组自己独立开发的,我们设计了一套当时比较先进的语义描述体系,一方面通过一个语义分类体系(现在通常称为本体Ontology)描述每个词的语义,还可以对每个词配价关系的描述来说明一个词可以跟哪些语义的词搭配。这部分开发工作由北大的王惠老师负责。第三部分是汉语词到英语词的翻译信息,也是我们根据几部汉英词典独立开发的。1996年,我们就汉英机器翻译系统申请了863项目并得到了支持,经费16万元人民币,不久以后又得到了一个计算所所长基金的支持,这标志着我们的机器翻译研究正式从自选项目的状态转入了官方认可的状态。1998年,863项目结束,我们的系统也初步开发完成。当年,我们参加了863专家组组织的中文信息处理与智能人机接口技术评测,参加汉英机器翻译评测的共有三个系统,我们在翻译质量方面以比第二名微弱的优势获得第一,但在用户界面方面,由于程序运行过程中的一个错误被扣分,导致总分名列第二。当时的评测结果全文刊登在《计算机世界》报上。这是我们的系统第一次出现在公众视野中,应该说,成绩还不错。这次评测给了我们很大的信心。
从我1992年毕业到1998年我们的系统在863评测中取得较好的成绩,我的工作应该说出现了一个小的高潮。这一年我的一篇论文发表在美国的AMTA会议上,我在1997年评上了副研究员。更重要的是,我在工作中结识了很多今后非常好的朋友。在计算所,除了我以外,先后加入了我这个小组的有博士生刘颖、王斌、李素建、鲁松和员工叶煜。王斌后来留在计算所,先后在软件室和前瞻研究中心工作,现在是前瞻研究中心信息检索课题组组长。刘颖毕业后去了清华大学当老师。李素建和鲁松来得比较晚,很快就随着所里的改革进入新所软件室,叶煜工作很短时间后就离所了。北大的詹卫东这期间获得了硕士学位,并开始攻读博士学生。我们几个人长年在一个办公室工作,结下了深厚的战斗友谊。特别值得一提的是詹卫东,他在我这个课题组工作的时间最长。他是北大中文系陆俭明教授的学生,在汉语语法研究方面有很深厚的功底,对汉语的各种语言现象非常熟悉,在课题组内负责规则库的编制和调试。对于他来说,用形式化的计算机规则方式处理语言是一种全新的体验,尤其是在进行机器翻译的时候,就会发现,机器翻译所要处理的语言学问题跟他平时在语言学领域关心的语言学问题差距非常大,他会经常发现各种各样的问题提出来跟我们讨论。而我当时也对汉语的分析非常感兴趣,看了很多语言学、特别是汉语语法理论的书籍,我们经常就语言学中的大大小小的各种问题进行非常深入的探讨。由于机器翻译几乎涉及到一种语言的所有各种语言知识,所以我们的讨论也涉及到了语言学的方方面面,我们把语言学中的很多概念按照我们的理解重新进行了清理,形成了我们共同的一些理念。这种讨论让我们都受益颇深,对我们今后的工作都产生了非常深远的影响。对我来说,我从一个语言学的门外汉变成了一个“票友”,对语言学的各种理论我至今都有着浓厚的兴趣。语言对我来说不再只是计算机处理的一堆数据,而是在其背后隐藏着深刻的规律性。到现在,虽然我们已经完全转到了统计机器翻译这个方向,但我并没有像一些纯粹的经验主义者一样,对语言知识在机器翻译翻译中的应用失去信心,而是一直坚持把一些语言学的知识引入到统计方法中,并获得了某种程度的成功。我也坚信,结合语言知识的统计模型将是机器翻译方法的最终归途,我们将沿着这个方向一直走下去。对于詹卫东来说,机器翻译的工作经验使他相比于其他的语言学研究者而言具备了一种独特的视角,这种视角更加全面、更加理性,这也使得他的研究工作在语言学界受到了更加广泛的关注。詹卫东于1999年博士毕业,他的博士论文“面向中文信息处理的现代汉语短语结构规则研究”就是根据他在机器翻译中的工作总结提炼形成的,这篇论文获得了2001年全国百篇优秀博士论文奖。现在詹卫东已经是北大中文系应用语言学方面的负责人,而且担任了北大计算语言学研究所的副所长。
对于当年开发的这套基于规则的机器翻译系统,我现在想起来还是比较满意的。这个系统最大的优点在于提供了一套具有强大的翻译知识表达能力的规则描述语言。通常,基于规则的机器翻译系统最大的问题就在于词典和规则库的调试。一般情况下,没有经过数十乃至数百人月的调试,规则数目没有数千条以上,系统很难达到初步可用的水平。而我们的系统除了在词典开发阶段招聘了一些临时人员以外,一般只有两三个人进行词典和规则库的开发,真正进入调试阶段只有三四个月的时间,调试了四千个左右的汉语句子,就在863评测中取得了较好的成绩。这一方面得力于詹卫东博士深厚的汉语语言学功底,为我们的规则系统打下了良好的基础,另一方面,也确实是因为我们定义的规则描述语言非常强大,可以比较清晰准确地描述各种类型和各种层次的语言知识,为詹卫东这样的语言专家提供了得心应手的工具。詹卫东博士对这套规则描述语言使用得非常顺手,以至于直接用在了他的语言研究工作中。在他的博士论文以及其他一些论文中,都直接采用这套规则描述语言。而且,后来由于我转到了统计机器翻译方法,原来的系统已经弃之不用了。但詹卫东博士对这个系统仍然不忍放弃,我就把系统的全部源代码给了他。他把其中的汉语分析部分独立出来,后来,他又带了一个学生,在我的帮助下,把原来的规则描述语言进一步完善,主要是增加了一些内嵌的函数,并增加了主观评分机制,使得规则的描述能力更加强大。詹卫东博士把这套句法分析器和他后来开发的句法树库管理工具结合起来,构成了一个完整的汉语句法知识管理平台,他至今仍在使用。其中的汉语句法分析器在面对真实语料的时候正确率能够达到60%以上,这对于一个基于规则的系统来说是非常不容易做到的。有趣的是,詹卫东作为一个语言学家,为了开发这套工具,自学起了C++语言,到后来自己已经成了半个编程高手了,程序中的很多问题他都亲自上阵解决,当然也免不了有一段时间经常就一些比较难解决的问题“骚扰”我。由此也可见詹卫东的勤奋与钻研精神。对这套工具,我们一直希望把文档好好整理出来,将有关成果发表成论文,并将这套工具公开出来提供给其他语言学研究人员使用。到现在为止他可能觉得一直还不完善,所以还没有这样做。但我想这是迟早的事情。
除此之外,我们这个机器翻译系统还产生了一些有意义的结果。我们开发的机器翻译词典的语义部分,采用了前面提到的基于配价的描述模式。虽然我们在词典的语义分类体系设计和词典开发的质量方面都做得非常粗糙,但这种思想还是很先进的。当时组织这部词典开发的北大教师王惠发表的一篇介绍这部语义词典的论文就有很高的引用率。这种基于配价的语义词典设计思想明显不同于自然语言处理界常见的语义词典(如同义词词林、Hownet、Wordnet)的组织形式,比较适合于机器翻译系统的使用(目前看来,这种设计思想有点类似于Fillmore设计的FrameNet的思想)。俞老师对我们这套词典的设计思想非常欣赏,后来北大计算语言所和北大中文系合作在这种设计框架下完成了一部新的《现代汉语语义词典》。
另外,我们还跟俞士汶老师签署了一份协议,授权北大计算语言所帮我们转让这个机器翻译系统的成果,包括其中的软件和词典等等。由于俞士汶老师开发的汉语语法信息词典影响非常之大,全世界开展汉语自然语言处理研究的几乎所有著名的大学和研究机构都陆续跟俞老师谈判转让了这部词典的使用权。在谈判的过程中,俞老师也顺便跟这些机构推荐转让我们机器翻译系统的成果,几年下来,竟然也收获颇丰,转让次数估计有七八次吧,转让金额总数也有近百万元人民币,其中一半左右分到了计算所。我记得还有一份软件还免费转让给了香港中文大学做教学用。
计算所改革·跟李所长第一次接触
在这一期863项目完成以后,我们的机器翻译研究开始工作变得困难起来。虽然我们又成功申请了一期863重点课题,但实际上项目经费只到位5万元。
1998年底,计算所新领导班子上任,高文任所长,科学院宣布对计算所进行重大改革,原来1000多人的计算所绝大部分人进入企业形式的计算所二部,重新组建一个不到100人编制的小计算所,小计算所同时又是联想研究院。这使得计算所进入了一个动荡不安的时期,很长一段时间,大家都人心惶惶,不知道将来要向何处去。后来,有一些人的去向逐渐明朗,部分人进入计算所二部,另外少数人进入新成立的小所,同时也是联想研究院。不过让我着急的是,我的工作没有任何着落。原来的二室已经解散,张祥老师出国了,这时刘颖已经毕业去了清华大学,王斌刚刚毕业,留所进了智能中心,而我既没有进入二部,也没有被吸收进小所,成了孤家寡人。从一些间接的消息看,小所似乎按部就班地成立并正式开始运转了,但对于我(可能还有其他一些人)来说,我没有从任何正式的渠道得到小所成立的任何信息,也没有任何人对我们将来的安排做出任何解释或说明。我第一次对未来感到如此的茫然。其实我也不是没有地方可去,俞士汶老师非常欢迎我进入北大(俞老师很长时间一直在北大为我保留了专门的工位和计算机,虽然我并没有去北大上班),自动化所模式识别实验室也在向我招手,还有一些公司只要我愿意也都可以去。但我还对计算所抱有一丝留恋,希望计算所能给我一个解释,而不是这样不明不白就走了。
那时我找了所里不少领导和部门的负责人,都得不到正面的答复。有一天下班的时候正好遇到李所长(那时候还是智能中心主任),我就壮起胆子跟他打了个招呼,说想跟他谈谈。李所长就带我到他办公室聊了一会儿。我跟他说了我的情况,表示了希望进入智能中心的愿望。他对我的情况好像也大致知道,只是告诉我,我所做的机器翻译研究,如果不能结合到具体的项目中,在智能中心会很困难。谈话的时间很短。虽然他没有正面答复我,但从他谈话的口气看,我感觉还是很有希望的。
这是我第一次跟李所长直接接触。我在计算所这么多年,跟李所长的接触并不多。不过,这寥寥可数的几次接触,对我的在计算所的工作都产生了重大的影响,后面我会陆续提到。
我最早认识李国杰所长,还是我在中国科学技术大学计算机系学习的时候。那时他刚从国外回国不久,我们学校的陈国良教授邀请他到我们系做了一个系列学术报告,介绍了国际上并行处理方面的最新动态。不过那时候我对他的印象还不是很深。
到计算所以后,我才知道,李国杰已经担任了智能中心主任,名气非常大,几乎可以用如雷贯耳来形容。不过在很长时间里,我都没有跟他直接接触过。对他的了解,都是通过各种媒体以及同事之间私下的交流得知的。这次也是走投无路了,才想起来去找他。
1999年末,所里的情况出现了大的变化,李国杰院士接任计算所所长,计算所的改革方向逐渐明朗起来。计算所和联想研究院进行了明确的分割,计算所内成立了六个实验室,而我也在2000年初得到樊建平副所长的通知,让我到白硕那儿报到,正式进入新成立的由白硕担任室主任的软件研究室。
在我焦急等待的这段时间里,我做了一个重要决定,就是在1999年报考了北大的博士研究生,并被正式录取为俞士汶老师的在职博士研究生。1999年末,俞士汶老师得到一个973子课题“面向新闻领域的汉英机器翻译系统”,俞士汶老师让我以计算所员工和北大博士生的双重身份,担任这个课题组的技术负责人,总算把我的机器翻译研究工作延续下来了,不过主要的研究工作已经从计算所转到了北大,北大和计算所签署了一个协议,分担了其中的部分工作,这个项目的另一个合作单位是清华大学,由当时已经留在清华当老师的周强博士带两个硕士生参加。
二室的一些人和事
我在二室的时间前后有10年之久,这里面经历了很多事情。其中还有一些人和事我觉得有必要写出来。
高庆狮院士本来是我的硕士导师,但自从我到计算所以后很长时间就一直没有见过他。虽然如此,我还是听到了很多有关他的传说。后来到1990年代末他回国后,到北京科技大学工作,我听了他的一次报告。我进入软件室以后,他也被李所长重新请回计算所,我们接触机会才多了一些。我跟高院士有过一些深入的交谈,感觉高院士看问题总是站在很高的理论角度上,跟他的谈话总是让我很受启迪,也让我望尘莫及。
我刚到二室的时候有一个师姐张玉洁。她是高庆狮的学生,在我到二室的时候已经硕士毕业留所工作,等我1992年硕士毕业留所的时候,她到日本去攻读博士学位。没想到,十几年后我们竟然成了合作伙伴。我也忘了具体是什么时候,大概是2002年下半年吧,她所在的日本综合通信研究所(现在已经改名叫做日本情报通信研究机构)希望到中国寻找合作机会,我们见过几次面。后来,我们又在一个中日自然语言处理研讨会上见了面,我们也互相对对方的工作有了比较多的了解,她在2004年初邀请我到日本进行了一个月的访问。这以后,我们就在一些领域开始了合作。最主要的合作是我们在863评测中的合作。她所在的研究所成了我们组织的863机器翻译评测的日方合作单位,帮助我们组织日本的研究机构参加评测、制作与日语相关的测试语料、并进行与日语相关的机器翻译人工评价。我们在这方面的合作非常成功,并在2005年的MT
Summit X会议上合作发表了两篇学术论文。到现在,除了863评测,我们还在其他一些项目上开展了进一步的合作,并且每年都在各种会议上有很多次见面交流的机会。
我对二室印象还比较深的一项工作是张玉志的计算机围棋算法研究。计算机围棋是一个非常困难的研究课题,当时张玉志提出了一种类似于磁场的棋子影响力计算方法,可以比较方便地在序盘阶段判断双方的势力范围,确定关键的位置,理论上做得相当的漂亮。1990年张玉志还在计算所承办了一次由台湾应昌期先生资助的世界电脑围棋大赛,非常热闹。当时有一个趣闻,据说是两台计算机下棋的时候,在一个地方形成了比气互杀的局面,其中一方走出了一个“金鸡独立”,本来是活棋,眼看就可以杀死对方了,结果该方的计算机程序竟然主动认输了,一时传为笑谈。我想现在的计算机围棋程序应该不至于犯这么低级的错误了吧。另外一件值得一提的事情就是,当时还进行了少年棋手和计算机的比赛,都是让子棋。虽然少年棋手赢得了大多数的比赛,但唯一一个获得全胜的少年棋手就是常昊。当时很多人都看好的这个毛头小伙,现在已经成了中国围棋挑大梁的人物了,想起来不由得让人感慨。计算机围棋研究和机器翻译研究一样,都是对人类智力进行挑战的工作,我至今仍然认为是非常有意思的,哪天要是等我有闲了,我倒很想尝试一下。
我毕业后留在二室的时间里面,还有一小段时间跟刘志勇研究员做了一点并行算法的研究,帮他把一个在n-cube上的并行算法移植到了另外一种结构上,还发表了一篇论文。后来不久刘志勇就调到国家自然科学基金委去工作了。
大概在1999年前后,我还跟李锦涛老师的课题组合作,将我们开发的汉英机器翻译系统移植到了将要推出的联想天玑掌上电脑中。我们顺利完成了这项工作,不过后来联想天玑正式推出的时候并没有选择我们的系统作为随机软件。
我在二室的时候,钱跃良老师一直担任863专家组办公室的主任,有一段时间还是二室的副主任。当时我们打交道并不多。没想到这么多年以后,我又进入数字化研究室加入了钱老师的课题组,在钱老师的领导下工作。现在钱老师是我们多语言交互技术评测实验室的主任。
老二室的人现在还留在计算所的,除了高院士、钱老师、我和王斌以外,还有宋铟(软件室秘书)、齐蓉(计算机研究与发展编辑部)等人。
对智能中心的印象
改革前的几年,计算所很多部门的情况都是每况愈下。只有少数几个部门情况较好,而智能中心无疑是其中状况最好、也是最活跃的部门。我当时由于埋头机器翻译的研究开发,对其他单位的情况并没有太关心,但智能中心的一些情况还是不断传入耳中,我们知道了智能中心开发出了著名的曙光计算机、智能中心有很好的研究氛围、智能中心的人收入很高,等等。二室的很多人也都陆续转到了智能中心工作。我自己唯一跟智能中心接触的机会就是参与了当时智能中心讨论班的一些讨论。当时两周一次的智能中心讨论班非常火爆,吸引了周边各研究所和高校的很多青年人来参加,传播了很多的新思想,讨论非常活跃。我自己也应邀在这个讨论班上介绍了当时我所在的陈肇雄机器翻译课题组的一些情况。当时负责这个讨论班的是一个年轻的小伙子,他的名字我不记得了。刚开始,白硕还是北大的学生,他跟他的一个同学(忘了名字,好像姓王,单名)在这个讨论班上非常活跃,名气很大。后来白硕毕业后到智能中心工作,原来的讨论班主持人也出国了,这个讨论班就由白硕等人负责,延续了很长一段时间。
在软件室
计算所的新气象
李国杰担任所长以后,计算所的面貌发生了很大的变化,各方面都开始显现出一种蒸蒸日上的局面。在这种大的环境下面工作,人的精神面貌都一下子好了起来。
我所在的软件研究室也是一个非常有活力的研究团体。这里承担了很多大型的国家项目,人才济济,研究氛围非常好,学生们的思想也很活跃,大家工作也都特别努力。室主任白硕和后来接任的程学旗知识面都非常广泛,对前沿的学术动态也都很了解。在这种环境下,我的研究工作也取得了一些新的进展。
研究工作进展
2000在很多方面对我来说都是一个新的开始。我不仅仅是开始了博士阶段的学习,开始进入软件室这样一个新的环境,开始承担了机器翻译研究的新课题,而且开始做爸爸了。可以想象得到我当时的手忙脚乱。
这时候我一直在考虑的一件事情就是,我们的机器翻译研究下一步向什么方向去。按理说,如果要提高现有的基于规则的机器翻译系统性能,应该找人用大量各种各样的句子进行调试,改进词典和规则库。但说老实话,我很不喜欢这种模式。因为凡是调试过机器翻译规则的人都知道,这是一件极其痛苦的事情。有点像计算机编程时的Debug,但不同之处是,机器翻译规则的调试似乎是一个永远没有尽头的工作,我们经常是按下葫芦起来瓢(所谓翘翘板现象),这边的句子调好,但原来调好的一些句子又出错了。虽然总体上说,系统的性能在不断改进,但这种改进非常之慢,以至于这对于调试者来说,这是一件非常没有成就感的事情。我自己就很不喜欢做这种事情,同样也不希望让别人去做这种事情。所以我已经下决心抛弃这种大规模调试规则的方法了,而是希望从算法角度对机器翻译系统的性能加以改进。但当时,我还看不清有什么方法能在本质上超越规则方法,当时主要的设想就是从以下几个方面对机器翻译系统加以改进:
l 改进原有的汉语分词程序和汉语句法分析程序;
l 扩大词典规模;
l 建立一个短语库;
l 构造大规模双语句子对齐语料库;
l 构造小规模双语组块对齐语料库,试图从中自动抽取规则;
l 引入基于实例的机器翻译引擎;
l 采用多引擎方法,将基于实例的引擎和原有基于规则的系统以及其他一些技术结合起来,提高系统的综合水平。
为了尽快推进项目的进展,在项目的初期,我想把我在计算所习惯的项目管理方法应用到这个项目中,也就是制定比较详细的进度计划,每周开会讨论了解督促进度。不过实践证明这种做法在这个项目中行不通,北大和清华的老师和学生都不能适应这种做法。我只好放弃了这种做法,还是大家分头开发,最后集成。
经过一段时间的讨论和磨合,我们三个单位的分工逐渐清晰,清华主要负责提供一个汉语分词模块和一个汉英命名实体的翻译模块,北大主要负责资源的开发,包括双语词典的扩充、语义词典的扩充和双语语料库的开发,以及完成一个基于实例的翻译引擎。计算所(主要是我本人)主要负责多引擎方法的设计和系统的总体集成。实际上,对于北大和清华的研究开发工作,除了开始阶段我试图统一进行管理那一阶段,后来我就很少直接介入了,只是把他们开发的各种词典、语料库和工具集成到了我们最后的系统中。
当时,计算所的开发人员主要是我自己,北大投入的人较多,包括詹卫东(语料库和词典)、常宝宝(基于实例翻译、语料库)、孙斌(分词)、王惠(语义词典)、陈玉忠(组块对齐的语料库)、吴云芳(双语短语库)等人,还有一些短暂参加但很快就退出了,这里就不一一列出。清华大学除了带队的周强外,还有两个硕士生(负责汉语的词语切分和词性标注模块和命名实体的翻译模块)。这时候周强已经是清华大学的博士后了。
后来,在计算所我又有了几个学生,也有一些员工参加了我这个组的一些工作。到2003年我离开软件室为止,陆续在我这个组工作过的人包括我自己的学生王长胜(他是中科院研究生院的学生,找到我做他的导师)、李继峰、邹纲、邓丹,程学旗的学生张华平、白硕的学生张浩和李丙辰(后来根据他的个人兴趣转成了徐志伟副所长的学生),客座员工张奕滔、张彤,客座研究生俞宏魁,员工周立新,另外员工黄雄和梁焰也少量参与这个项目的一些工作。
在软件室这几年(2000-2003),实际上也就是我在北大在职攻读博士学位(1999-2004)的主要时间。刚开始,对于机器翻译如何做,我的思路实际上并不很清晰,但我对机器翻译的信念却一直不减,在跟室主任程学旗的多次谈话中我都跟他表达了我这种信念。我也要感谢软件室当时并没有给我安排其他工程性的项目工作,让我有精力在机器翻译的各个方面做了很多的探索,虽然当时这种探索并不很成功。
我在计算所的工作并没有局限于只做多引擎方法和系统集成,而是跟小组的其它成员一起,几乎尝试了所有我能想到的各种方法,试图提高机器翻译系统的性能。虽然系统比原先简单的基于规则的系统有一定的提高,但总体效果并不显著。这一段时间做的很多事情有些不了了之,但也有很多工作取得了很好的效果,为我今后的工作奠定了重要的基础。下面我分别介绍这些工作。
l 双语词典
早期基于规则的机器翻译系统一个重大缺陷就是词典规模太小。于是我们就从网上收集了数十部各种形式的电子词典,投入人力进行数据整理和归一化,得到了一部相当规模的电子词典(含大约42万词条)。这部分工作李丙辰开了一个头,后来由于个人兴趣原因,他很快就转到了徐志伟所长的网格组去了。不过这部分工作我们一直延续下来了,并把这部词典以数据库形式放在了网上供大家免费查询,竟然非常受欢迎。在没有对这部词典做任何宣传的情况下,现在每天的访问量都在1000次以上,很多人还经常给我发信跟我探讨这部词典的一些问题。我们现在已经把这部词典扩充到了数百万词条(没有放到网上),不过由于我们后来参加的机器翻译评测主要是参加受限语料的评测,这部词典并没有直接用上。不过我想这是一个非常宝贵的资源,总有发挥作用的时候。
l 双语语料库
早期我们的基于规则的系统是完全不使用语料库的。自从我决定不再采用人工调试规则的方法以后,从语料库中学习翻译知识是必然的途径。虽然具体采用哪一种策略还不明了,但是语料库总是不可缺少的。虽然按照分工这一块工作由北大来做,但我想语料库总是多多益善的,所以我在计算所也组织课题组成员收集了一批语料库,这项工作当时由梁焰等人负责,总共收集了大约18万句对。后来,我到数字化室以后,这些语料库用在了我们承担的一个973项目的子课题中,目前已经可以通过ChineseLDC进行转让,也可以在我们课题组的网站上在线查询。我们后来的机器翻译和词语对齐等工作都使用了这个语料库。后来我们组织的863评测,也把这个语料库作为训练数据的一部分。但我们参加NIST评测并没有使用这个语料库,因为我们参加的是限定训练语料库的项目,只能使用NIST指定的语料库。
l 参加NIST评测
2002年,我了解到美国NIST要进行一次机器翻译评测,测试的语言主要是汉语到英语和阿拉伯语到英语的翻译。由于我一直在做汉英机器翻译,而且在1999年的863评测中也取得了不错的成绩。汉语又是我们的母语,应该说我们还是有一定优势的,所以我积极投入了汉英机器翻译评测。由于时间紧迫,我无法对原有的程序做大的改进,只是把我们收集的一部大规模汉英词典加入了系统中。但结果却让我大失所望。由于我使用的是规则方法,完全没有使用评测提供的任何语料和工具,而是使用了自己的词典,所以我参加的是不受限语料的项目。结果在不受限语料项目的四个参评系统中,我们的结果排在最后一名,即使加上受限语料项目的六个参评系统,我们也只能排在倒数第二。这个结果让我非常沮丧,但反过来,也让我看清楚了,与传统的规则方法相比,统计机器翻译方法的优势已经非常明显,机器翻译的研究转向统计方法将是一个不可避免的趋势。这件事使我最终下定决心转到了统计方法上来。对我来说,虽然参评结果很差是一件坏事,但从另一个方面说,这件事让我认清了今后工作的方向,让我看到了机器翻译研究的希望所在,对我来说终究是好处多于坏处。
l 中文自然语言处理开放平台
从事自然语言处理和机器翻译研究这么多年,我有一个很深的感触,就是这个领域门槛较高。从事这个领域的研究,如果没有一定的基础和积累,没有一个合适的研究环境,是很难入门的。虽然很多研究者对中文的处理都非常感兴趣,但苦于缺乏基础,不得其门而入。因此,我一直很想为这些人做一些事情,以便降低这个研究领域的门槛,让更多的研究者能够方便地进入这个领域,从事这方面的研究工作。恰逢当时接触了很多开放源代码运动的资料,于是我就萌发了一个想法,就是借鉴开放源代码的形式,做一个公益性的网站,专门提供免费的中文自然语言处理方面的资料,不仅仅有源代码,还可以有词典、语料库、论文、资料等等。在不侵犯别人知识产权的情况下,用户可以上载自己手里的资源,也可以下载别人的资源。我想这一定会受到大家广泛的欢迎的,对我们自己的学生上手进行研究工作也是非常有益的。说干就干,我很快把我的想法写成了计划,跟软件室负责人程学旗和白硕讨论并得到初步认可后,我们很快就申请了域名(nlp.org.cn),完成了设计,编写了相关文档(包括我们自己定义的开放资源授权协议),并请张奕滔开始实现这个系统。2002年8月,在北京大学召开了第一次学生计算语言学研讨会,当时我作为在职博士生担任会议的程序委员会主席,在一篇论文中我介绍了这个想法,引起了很多人的注意。不久后我们的网站正式定名为“中文自然语言处理开放平台”(以下简称开放平台),就正式运行了。作为启动的第一批资源,我们把我们刚开发成功并获得973评测第一名的汉语分词系统ICTCLAS(后面还会有介绍)作为开放源代码的资源放了上去,不久我们又整理了一批语料库、词典、开源的工具,后来詹卫东博士也贡献了他读博士期间收集的一大批资料,我们的网站就红红火火地开张了。我当时给科学时报写了一篇稿子,他们很快采用并报道了,结果这篇稿子很快被很多报纸转载,产生了很大的影响。现在这个网站每天下载的资源数量大约为200-500份,注册用户超过8000人。作为一个专业的学术网站,这无疑是很少见的。我们当时希望,在google等搜索引擎上输入“自然语言处理”六个字,我们的网站能很快就能找到。结果这个目标很快就达到了。现在,在任何一个主流的搜索引擎上输入这几个字,我们的网站都牢牢占据了第一位。
l 汉语词法分析
汉语词法分析,包括汉语的切词、未定义词识别和词性标注,是很多汉语自然语言处理工作的基础。从1980年代起,各国学者,尤其是中国学者在这方面投入的大量的精力。因为不管在哪方面研究,比如机器翻译、信息检索、文本分类、自动文摘等等,首先要做的都是切词。由于没有公开好用的切词工具,所有从事中文自然语言处理研究的学者首先都要开发一个切词系统,这就导致这方面的研究论文层出不穷。但如果仔细分析,会发现其中大部分的工作都是在低水平上重复。虽然有一些汉语切词系统已经达到相当高的质量(如北语的系统和北大的系统),但由于普通研究人员无法得到这样的系统,因此对于绝大部分研究人员来说,缺乏好的分词系统依然是一个非常严重的问题。由于分词并不是一个很简单的问题,尤其是词语切分歧义问题和未定义词识别问题往往纠缠在一起,这就导致汉语的切词变得比较困难,单纯依靠规则方法很难得到很好的结果。而当时采用统计方法进行切词研究的还不太多,尤其是将切词、未定义词识别和词性标注等问题结合起来的研究还非常少见。这也导致很多原本希望从事其他中文处理研究的学者不得不陷入了切词问题的研究之中,而削弱了对其本来研究问题的关注。我自己在原来的机器翻译系统中,也开发了一个纯粹基于规则的汉语词法分析系统。由于缺乏足够的调试,分词效果当然很不理想,因此开发一个好的分词系统也是一个迫在眉睫的问题。刚好这时候我看了很多自然语言处理中统计方法的文章,我发现,隐马尔科夫模型是一种相当强大的工具,应该可以解决汉语词法分析中的各种问题,包括切词、未定义词识别和词性标注。于是在2001年下半年,我开始让张华平开展这方面的研究。张华平是个非常聪明也非常勤快的学生,虽然他原来并没有任何自然语言处理工作的基础,但他很快就动手做了起来。刚开始他还不太能理解我的设想,就不断地跟我来讨论,在这种讨论中他慢慢理解了我的设想,而且在一些细节上对我原先的设想也进行了进一步的改进和完善。我们采用北京大学计算语言学研究所开发的人民日报语料库作为训练和测试语料,实验结果令我们非常满意。2002年7月,我们参加了973项目组授权姚天顺老师组织的汉语词法分析评测,我们的系统ICTCLAS在参加评测的三个系统中,以微弱的优势领先第二名的系统获得第一,这让我们非常高兴。
虽然我们的词法分析程序效果非常好,但说实话我并没有把这件事看得很重。毕竟词法分析只是机器翻译的第一步,而且是非常小的一步。我忽然有了一个想法,就是把这个系统以开放源代码的形式公开出来,一方面,可以让所有为汉语切词而苦恼的人解脱出来,不要再纠缠在汉语切词问题上,而可以关注他们应该关注的研究问题。另一方面,可以为真正从事汉语分词研究的人树立一个标杆,不要再做低水平重复的工作,至少跟我们这个系统相比水平要有所提高才有意义吧。这个想法得到批准后,我们很快把我们的系统源代码放到了刚开张的“开放平台”上。正好这时计算所组织向社会公开了一批开放源代码的工具,我们就把我们这套汉语词法分析系统ICTCLAS和另一个汉语句法分析系统ICTPROP加入了这次活动,通过计算所网站也向社会公开。在2002年底,我们了解到国际上刚刚成立的汉语处理兴趣小组Sighan要举办第一届汉语切词评测比赛,我们也积极参加了这次评测比赛,评测时间是在2003年4月,结果我们在有关汉语简体文字切分的四个评测项目中,得到了两个第一名和一个第二名。这使得我们的研究工作在国际上引起了更多的关注。到目前为止,ICTCLAS已经成为最有影响的汉语切词工具,在计算所网站开源软件网站上下载次数达4500多次,在“开放平台”上的下载次数也应该有数千次,加上用户其他途径的传播,我们估计ICTCLAS的用户数量应该会有1万以上。在Google等著名搜索引擎上搜索ICTCLAS,可以查询到的网页都在6000篇以上。东北大学的博士生张乐把这个系统移植到了Linux上,并把移植的结果上载到了“开放平台”。在“共创软件联盟”上也出现了一个ICTCLAS
FOR
JAVA的项目。另外,网上还有大量的文章讨论ICTCLAS的Bug,求解其中的问题。由于我们没有提供英文的文档,也没有在英文网站上发布这个软件,国外用这个软件的人还不像国内这么多。不过还是有很多中国研究人员把ICTCLAS用在了他们在国外研究机构的研究成果中。在Google
Scholar上查询ICTCLAS可以查到90篇文献,其中就包括了很多国外的文献。由于我们一直很忙,ICTCLAS的1.0版推出后,我们就一直没有进行升级,其中的一些Bug我们也没有来得及打上补丁。不过我们现在已经开始着手做这件事情,相信不久就会有2.0版本出来。另外,我们在课题组的网站上也提供了ICTCLAS的在线测试版本,供大家随时测试。
l 汉语句法分析
在进行汉语词法分析的同时,我们组另一个硕士生张浩也在进行汉语句法分析的研究。我原来在机器翻译中开发了一个基于规则的汉语句法分析器,我很希望张浩能开展统计句法分析的研究。张浩的导师白硕研究员对于汉语句法分析提出了一种叫做角色反演的算法,因此也同意张浩进行这方面研究。张浩在查阅有关资料的基础上,提出了一种基于结构上下文特征的汉语句法分析算法,其中也实现了白硕提出的角色反演方法。这种算法比单纯的概率上下文无关语法的句法分析性能有所提高。这种做法不同于当时性能最好的词汇化概率上下文无关语法相比。与词汇化概率上下文无关语法相比,性能略低,但复杂度也较低。这个句法分析器虽然没有达到当时国际上已经发表的最好水平(在同样的训练和测试数据上比较),但比我原来的基于规则的句法分析器已经有了大大的提高。我们后来把这个软件的核心算法部分也以开放源代码形式在“开放平台”和计算所网站的免费资源栏目同时公开了。在计算所网站上的下载次数同样达到了4000多次。后来张浩毕业后去了美国Rochester大学读博士,还是从事与自然语言处理相关的研究工作。我们到数字化室以后,我们课题组另外两名硕博连读生熊德意和米海涛后来继续在汉语句法分析领域开展了很多研究工作,目前我们的系统性能已经超过了国际上已经报道的最好水平,而且这个句法分析器已经用在了我们的统计机器翻译研究中,发挥了很大的作用。这个系统也在我们课题组的网站上提供在线测试。
这段时间与句法分析相关的另一个工作是李素建在她的博士论文工作中开展了汉语组块分析的研究,不过这项研究并没有形成可使用的软件工具。
l 基于知网的词语相似度计算
基于知网的词语相似度计算研究是我的一项意外收获。2002年5月要在台湾召开第一届汉语词汇语义学研讨会,当时我的导师俞士汶教授作为国内召集人向大家征集论文摘要。我当时响应俞老师的号召,也投了一篇摘要,题目就是“基于知网的语义相似度计算”。当时我并没有做这项研究,只是有了一个朦胧的想法。因为词语相似度计算是很多场合都需要用到的一项技术,包括基于实例的机器翻译也需要用到。而知网是一个内容丰富的语义知识库,但由于知网的结构比较复杂,将知网应用于实际的自然语言处理研究中的实例还不多见。因此我就有了这么一个想法,但当时并没有实现。加上这次会议为部分大陆的优秀论文提供了去台湾开会的资助,这对我也是很有吸引力的,所以我就提交了一份论文摘要,但也没有抱多大希望。没想到论文被录用了,而且还得到了资助。我只好花了一些时间把这篇摘要扩充成了完整的论文,为了用实验说明我这个算法的效果,我还开发了一个软件来实现这种算法。后来这篇论文又被推荐到台湾出版的Computational
Linguistics and Chinese Language
Processing杂志上发表(2005年8月),我也把我开发的软件的可执行程序在网上公开了。让我意外的是,这篇论文竟然引来了大量的关注,现在在Google
Scholar上查这篇文章已经有39篇引用,是我的所有论文中引用率最高的一篇。知网的发明人董振东也非常欣赏这篇论文的工作,后来他在推出知网新版本的时候,也提供了一个词语相似度计算工具,这个工具就是根据我这篇论文的思想编写的。这真是无心插柳柳成荫的一个最好注解。我以后也没有再进行这方面的研究工作。这次会议的另一个收获就是让我有机会踏上了祖国宝岛台湾,除了在台北开会几天以外,我们还到台东的花莲太鲁阁一带旅游,饱览了台湾美景,让我至今难忘。
l 重复串识别和新词检测
汉语切词中,未定义词识别是一个最困难的问题。对于常见的人名、地名、机构名等命名实体,我们采用隐马尔科夫模型,已经能够较好地解决问题。但还有很多新词仍然无法识别。但我们可以注意到,新词往往在一篇文章中是反复出现的,利用这个特点,也许可以在一定程度上帮助进行新词语识别。另外,文章中的重复串其实不仅仅是词语,通常还可以是一些有意义的短语,这对于句法分析等其他工作也都是非常有意义的。基于这个想法,我开始在课题组内开展这方面的研究工作。客座员工张彤和硕士生邹纲陆续开展了这方面的研究工作,实验取得了很好的效果。后来我转到数字化室以后,以此为题和富士通研究开发中心开展了两期的合作研究工作,这两个项目分别由硕士生邹纲和崔世起承担,主要工作是把新词识别的研究扩展到了Internet上,从Internet上采集的大量网页并从中提取新词,实验非常成功。在我的建议下,崔世起还把这项工作扩充到了汉语缩略语的识别和还原,也取得了成功。富士通公司对这个项目很满意,邹纲毕业后就进入了富士通公司工作,而且还是进行这方面的研究。目前我们已经停止了这项研究,相关工作做成了一个网页,放到网上,每天自动从网上采集网页进行分析,自动形成每月的新词报表公布在网上。我不时还能得到有关这方面研究工作的一些反馈。
这段时间,我们还在计算机辅助翻译、基于实例的机器翻译、多引擎机器翻译、汉蒙机器翻译方面做了一些工作,这里就不一一介绍了。
除了上面的工作之外,我在软件室的时候,还有一小段时间参加了高文老师牵头的联合国UNL项目(实际上也是一个多国语言机器翻译项目),当时高文老师让我和史晓东负责。我做了一段时间,觉得这个项目本身设计非常糟糕,就退出了。史晓东不久也去了厦门大学。
2003年中旬,我正式从软件室转到李锦涛老师领导的数字化室工作。主要的原因是数字化室钱跃良老师和林守勋老师这时候承担了863大规模语言资源建设和863评测课题以及北京市奥运项目中的类似课题,由于我在自然语言处理领域长时间的积累,他们很希望我能参与这些项目的工作,而且也支持我继续从事机器翻译的研究。而我在软件室的工作由于长期定位不是很明确,而且我也短期内也很难申请到大的课题,因此我的工作处于了一种比较尴尬的地位,软件室也不太支持我继续在机器翻译方面开展研究。因此我下决心离开软件室来到了数字化室。
软件室的一些事情·跟李所长第二次接触
我在软件室总共呆了三年多时间。在这段时间,我跟李所长只有过一次接触,这也是我跟李所长的第二次直接接触。其实,进入软件室后,虽然我很长时间一直没有单独见过李所长,但我能感觉到,所里对我进行的机器翻译研究还是非常关心的。樊所长多次介绍不同的人到我这儿参观我的系统,并给我介绍一些合作机会。可惜我那时候的系统离实用还差得很远,一直也都没有把握住机会。
2001年面试硕士研究生的时候,我被告知跟李所长一起面试研究生。我那时候刚开始招研究生不久,报考我的研究生人数还非常少,而报李所长研究生的人数却非常多。我们见面后几乎没有谈论其他话题,直接开始就面试的问题沟通了一下,马上就开始面试了。面试了一个下午,李所长确定了他要的学生,我对报考我的那个学生不太满意,也在报考李所长的学生中挑选了两个学生,这两个学生就是刘洋和熊德意,是我到目前为止带过的最出色的两个学生,在我们现在的统计机器翻译课题组中,他们两个是最核心的骨干,一些人把他们两个人的名字连起来合称“洋洋得意”。由于最近他们两个人在ACL会议上发表了论文,他们的工作已经在国际统计机器翻译研究领域暂露头角,以至于这个研究领域的圈子里很多人都知道了“洋洋得意”这个名号。
这次见李老师,虽然我们没有讨论任何工作上的事情,但我至少知道李所长还在关注着我的工作。
在数字化室
研究工作进展和取得的成绩
进入数字化室以后,我的工作进入了一个崭新的阶段。我们连续三年组织的863中文信息处理和智能人机接口评测,以其权威性、科学性和公平性吸引了国内大量的研究机构参加,产生了很大的影响。我们组织的大规模资源建设,通过我们和自动化所等单位共同创办的中文语言资源联盟ChineseLDC向国内外提供授权的资源转让工作,目前已经受到国内外很多研究者的关注,成功地实施了大量的资源转让,为国内外同行提供了一个极好的资源共享平台。更加让我高兴的是,我们的机器翻译研究工作全面转向了统计机器翻译方法并且获得了成功。我们在今年8月举办的NIST机器翻译评测中取得了很好的成绩,在汉英机器翻译的受限语料项目(Large
Data)评测中,我们在参评的24个单位中获得了第5名。我们在计算语言学领域顶级学术会议ACL上连续两年发表了3篇与统计机器翻译相关的论文,其中一篇还获得了Meritorious
Asian NLP Paper
Award奖项。这些成绩都标志着我们的研究工作已经跨入了国际先进水平的行列。这些都是近几年的事情了,大家还都记忆犹新,细节我在这里就不详细介绍了。
获得博士学位
2004年5月,经过在北大5年的在职学习,我终于通过了博士学位论文答辩,获得了博士学位。我的博士论文题目是“汉英机器翻译若干关键技术研究”,在论文中我把我近几年的工作做了一个比较完整的总结。我的论文获得了博士答辩委员会的一致好评,担任答辩委员会主席的是高庆狮院士。
跟李所长的第三第四次接触
自从上次跟李所长一起面试学生后,我很长时间都没有再跟李所长直接交流过。即使在我在即将离开软件室那段非常困难的时期,我也不好意思去找李所长谈我的工作问题,主要原因可能是因为我的机器翻译工作一直不见起色,我不好意思再去麻烦李所长。到数字化室以后,我一直想找机会给李所长汇报一下近期的一些工作,但也一直没有下决心,就耽搁了下来。到2005年,我到数字化室差不多有两年了,我的工作在同行中引起了很多注意,李所长可能在一些场合听说了我的一些工作,于是让所里职能部门在我的同行中对我的工作进行了一些调查,可能反响还不错(这些都是我的一些同行告诉我的)。于是,李所长开始在所里的一些会议上对我的工作进行了表扬,大致的意思是我在所里一直默默无闻,在没有得到所里很多支持的情况下,做出了比较好的成绩。所长是在所内一些小范围的场合说这些话的,我自己都不在场,而是别人跟我转述的。这时我也觉得应该向所长汇报一下我的工作了,于是就跟所长约了一个时间面谈。这是我跟所长的第三次直接接触。我们谈的时间也不长,所长直接跟我了解了我目前所进行的统计机器翻译研究的情况,我向他进行了简单的汇报。所长向我询问了其中一些细节,然后建议我除了要跟踪国际上最先进的做法以外,不要一味模仿,一定要注意有本质性的创新(大致意思是这样,原话我记不准确了),这样才能真正走到别人前面去。以后我又找所长谈过一次,主要还是讨论工作上的一些事情。
这以后我的工作开始在所内得到很多的重视,我被评上了研究员职称和博士生导师,并担任了新成立的多语言交互技术评测实验室的副主任。
跟李所长这几次接触,我感觉李所长虽然是中国计算机界举足轻重的人物,又是院士,其实他是个特别实在的人。我们的谈话都很短,几乎没有废话,都是直入主题,事情一谈完马上就结束,他又要去处理下面的事情。他也从来不摆什么架子,都是用一种平等的姿态跟我交流。谈话也非常注重实效,每次谈到的事情都能落到实处,每次跟他交流,对我的工作都有实实在在的帮助。
结语
我在计算所的经历应该还算是比较丰富的。作为一个普通的研究人员,我在计算所的三个不同部门都呆过比较长的时间,我还在北大计算语言学研究所有过在职攻读博士学位的经历,这些不同的经历让我学到了很多东西。在计算所二室机器翻译课题组的经历,将我引入了自然语言处理和机器翻译研究的大门,确定了我今后的研究方向。软件室的研究经历,也对我也有很大的影响。我第一次了解到如此众多的研究方向和那么多活跃的研究思想,使我大开眼界。软件室工程化的项目管理方法,也使我学到了很多项目管理方面的技巧。北京大学计算语言学研究所与计算所完全是另外一种管理风格,那里每个人都有充分的自由,俞老师的管理方式是无形的,但也是相当有效的。另外,在北大我也见识了很多非计算机领域出身的青年才俊,与他们的接触让我受益匪浅。而我后来所在的数字化研究室又是另外一种管理风格,这些都是我一生受用不尽的财富。
我在计算所这十几年,得到了很多“贵人”的帮助,对此我怀着深深的感恩之情。
从我到二室读研究生,到新计算所成立,二室解散为止,张祥老师一直是二室的主任。张老师对我的工作和生活一直非常关心,对我坚持机器翻译研究这件事,他尽他的能力给我了最大的帮助,特别是早期没有任何资助的情况下,如果没有他的支持和帮助,我是不可能在这条路上走下来的。对此我一直怀有深深的感激。
俞士汶老师是我的博士导师,从我硕士毕业开始决定开展机器翻译研究开始,我就一直跟俞老师保持密切的合作关系,一直到我2004年博士毕业为止。俞老师在事业上给了我极大的帮助,特别是我在北大攻读博士学位这几年,除了在学习和工作中帮助我以外,俞老师还经常给我一些机会,让我出席一些重要的学术场合,使我在这个学术圈子里开始有了一定的影响。另外,俞老师对人的热情、对工作的一丝不苟、对名利的淡薄,都让我非常敬佩,也对我自己为人处事的方式产生了重要影响。对俞老师的感激之情,我将永远铭记在心。
白硕和程学旗是我在软件室期间的两任室主任。我在软件室工作期间,是他们给我提供了一个稳定的工作环境。虽然我的研究工作一直没有很好地溶入软件室的主流研究方向,但他们对我的研究工作一直都非常宽容,而且也在人力和经费方面给我了很多的帮助。我近几年来取得的成绩,其实相当大一部分基础都是在软件室工作的这几年打下的。对他们的帮助我也要表示衷心的感谢。
我特别要感谢李锦涛老师、钱跃良老师和林守勋老师。他们是我在数字化室期间的几位主要领导。我这几年做出的主要成绩,都是在他们的直接领导下取得的。他们给我了最大的空间,使我多年以来形成的积累得到了充分的发挥。这里的工作氛围特别好,大家相处得非常融洽。在这里,我们组成了一个非常好的工作团队,大家各司其责,互相帮助,优势互补,让人感觉非常愉快。我希望这种良好的工作氛围能在今后一直保持下去。
当然我最应该感谢的还是李国杰所长。他的几次帮助,对我的工作都起到了决定性的作用。对李所长的知遇之恩,我的感激之情是难以用言语表达的。
我在计算所这十几年,亲眼目睹计算所经历了一个由衰弱到复苏到重新辉煌的过程。我自己的经历也跟计算所一样,跌宕起伏。我衷心预祝计算所能够在新的时期再创辉煌,而我们这些计算所人也能够与计算所一道,在人生的道路上取得更大的成就。
后记
本来这篇稿子没打算写这么多,不过下起笔来才发现可以写的事情实在不少。有些事情隔的时间长了,都快要淡忘了,正好趁这个机会回忆整理一下,也是很不错的。我这个人记性向来不好,丢东西、不认人、忘记人的名字是常有的事。这篇稿子成稿仓促,里面涉及的人和事情,虽然我都尽量经过核实,但仍难免有错误,有些重要的事情也许有遗漏。如有遗漏和差错,责任完全由我自己承担,也希望读者批评指正。
祈威、于天波、钱跃良老师、王斌、俞士汶老师、詹卫东、常宝宝在本文写作过程中给我提供了很多的帮助,他们帮我指出了文中一些不太准确甚至失实的地方。钱老师对我在文章中的一些表述提出了中肯的建议。詹卫东对我的文章结构提出了很好的修改建议。在此一并表示感谢。
。如果打开速度慢,可以尝试快速版;如果想保存快照,可以添加到搜藏。(百度和网页http://mtgroup.ict.ac.cn/~liuqun/research/experience.htm的作者无关,不对其内容负责。百度快照谨为网络故障时之索引,不代表被搜索网站的即时页面。)
计算所与北大往事回顾
刘群
序
引言
在二室
攻读硕士学位
开始独立研究·跟北大计算语言所合作
计算所改革·跟李所长第一次接触
二室的一些人和事
对智能中心的印象
在软件室
计算所的新气象
研究工作进展
软件室的一些事情·跟李所长第二次接触
在数字化室
研究工作进展和取得的成绩
获得博士学位
跟李所长的第三第四次接触
结语
后记
序
这篇文章,本来是为计算所建所50周年写的一篇稿子,标题是“计算所往事回顾”,发表在计算所网站建所50周年的专栏上。因为我这些年来的工作与北大计算语言所有密不可分的联系,我在写初稿的时候,花了很大篇幅介绍我跟北大计算语言所合作的情况。初稿写成后,我请了很多人帮我看,包括北大计算语言所的俞老师、詹卫东、常宝宝等人,他们看到我对以前的这些事情的回忆都很感慨,也给了我很多的鼓励。后来在计算所网站上正式发表时,考虑到这篇稿子毕竟是为计算所建所50周年而写的,我与北大合作的这些事情与这个主题关联不大,所以就忍痛删掉了很多这方面的文字,另外也删掉了一些比较具体的技术细节。现在征得俞老师同意,把这篇稿子的全文发表在“燕园时语”上,补上了被删除的部分,标题改成“计算所与北大往事回顾”。不过原来文章是以我在计算所的经历为主线来写的,这一点没有改动。谨以此文献给这十几年来跟我一起在自然语言处理和机器翻译领域并肩战斗过的老师、同学和朋友们。借用詹卫东给我的邮件中的一句话:衷心祝愿我们这些一起战斗过的NLPers一切顺利。
引言
计算所宣传外联办的祁威跟我约稿,要我为计算所建所50周年专刊写篇稿子,回忆一下我所经历的一些事情。她的来信引起了我对往事的一些回忆。我是1989年进入计算所的硕士研究生,毕业后一直留所工作至今。比起计算所的老同志来说,我在所里的时间并不算太长。不过在现在的计算所,放眼望去,到处都是生气勃勃的年轻人,与计算所的绝大部分人比起来,我也确实应该算得上是“老”员工了。不算在研究生院(玉泉路)学习的一年时间,我在计算所已经工作了整整16个年头。虽然我只是计算所一个普通研究人员,计算所这些年来发生的一些重大事件,我们并不处在这些事件的中心,但对于我们具体的每个人来说,还有很多的小事,同样值得我们去回味。也许正是这些小事,可以从一个侧面,佐证我们计算所这些年来辉煌而又曲折的发展历史吧。
在二室
先说说我自己的经历吧。
攻读硕士学位
我是1989年作为免试推荐的硕士生进入计算所的。当时报的导师是高庆狮院士(当时还叫学部委员)。进所的时候,因为高院士出国未回,我的导师改成了张祥研究员,也就是当时计算所二室的主任。在玉泉路学习的一年很快就过去了,回到所里的时候,我和师妹韩向阳都被分到了陈肇雄博士领导的机器翻译课题组,师弟潘伟被分到了蒋贤春负责的汉字识别课题组。
我刚到计算所二室的时候,张祥老师还是863专家组的组长,那时二室还是非常红火的。1990年我们刚从玉泉路回所的时候,赶上在京西宾馆举行EST863工作站的鉴定会,规模非常大。
接下来的两年,我开始在陈肇雄课题组研究机器翻译,这个课题组承担了863的“智能型机器翻译”项目,课题经费是74万元人民币。当时参加这个项目的,除了计算所的人以外,还有很多合作单位,包括北京科技大学、中国科技情报所、珠海科健公司、北京工业大学等等,研究开发工作进行得非常红火。这段时间的工作,使我对计算语言学和机器翻译的研究发生了极大的兴趣。在我以后的经历中,虽然换过好几个地方,但我的研究工作一直集中在这个领域,没有离开过。
1992年,我顺利完成硕士学习和硕士论文(我的论文主要是做其中的知识库管理系统),获得了硕士学位。也就在这个时期,机器翻译课题组的工作取得了重大的进展。课题组和香港权智公司签署了协议,权智公司投入74万美元,课题组投入机器翻译技术,双方共同合作成立了“科智”公司,将系统植入权智公司的“快译通”产品之中。由于权智公司的产品早已行销全世界,产品的销路完全不成问题,而这又是全世界第一个带有全文翻译功能的电子辞典产品,这是一次非常好的合作,引起了轰动。从此以后,陈肇雄的事业开始走上了快车道,先是于1993年和1995年分别获得中科院科技进步一等奖和国家科技进步一等奖,而后又在1997年离开计算所,成立了华建公司。华建的机器翻译产品也一直是市场上最好的机器翻译产品之一,这是后话了。
也就在我们毕业的时候,陈肇雄脱离了计算所二室,成立了计算所机器翻译中心。我的师妹韩向阳跟陈肇雄去了机器翻译中心,师弟潘伟去了美国,而我则选择留在了二室。
开始独立研究·跟北大计算语言所合作
硕士毕业后,我就一直在考虑今后的研究方向。导师张祥给了我很大的选择余地,让我自己做出选择。经过一段时间考虑,我还是决定继续做机器翻译研究。我选择的课题是汉英机器翻译。之所以选择这个课题,是因为当时陈肇雄做的主要是英汉翻译,我不希望做的工作跟他们重复,另外,从研究角度说,汉英机器翻译难度更大,对汉语研究来说意义也更大。张祥老师同意我的选择,并许诺给我尽可能的支持。方向定下来以后,我就开始埋头考虑设计方案,到1993年上半年,初步的设计方案已经成型,系统设计已经详细到了模块一级,词典、规则库的定义也都已经完成。这时我开始考虑寻找合作者。由于做汉英翻译的研究主要需要寻找汉语语言学方面的合作者,我首先想到了北京大学计算语言学研究所的俞士汶老师。俞士汶老师是我硕士论文答辩的主席,他的学者风度给我留下了深刻印象。我主动找上门去跟俞老师讨论合作事宜。现在想起来确实冒昧。那时我还是一个刚刚硕士毕业的学生,俞老师已经是成名的学者,而我又要求进行以我为主的合作,现在看起来,几乎是一件不太可能的事情。没想到这次合作竟然奠定了我们以后长期合作的基础,我也最终成为了俞老师的博士研究生。这是后话,下面还会说到。
当时俞老师在仔细听取了我的设想以后,初步同意了合作,但希望能够在仔细研究我的设计方案后再做出最后决定。我回去后,就把总体的设计方案交给了俞老师,其中词典设计和规则库设计都是用类似BNF范式的形式描述的。俞老师在仔细研究了我的方案后,完全同意了跟我合作,我们签署了一个简单的合作协议,由计算所提供很少的一笔研究经费和一台计算机,北大协助我按照我的设计方案,完成词典和语料库的设计和调试,双方共同合作开发一个汉英机器翻译系统。合作期限是1993年8月到1995年1月。
协议签署后,我们就分头开始了开发。我主要进行软件开发,北大一个小组在我的指导下进行词典和规则库的开发。当时北大这个小组由当时在北大读硕士的周强负责,参加的人有段惠明老师、王惠老师、硕士生和博士生詹卫东、博士生常宝宝、硕士生陶晓鹏等人。到1995年,一个原型系统已经完成,这个系统运行于Sun工作站之上,词典规模只有5000条。虽然这个原型系统还很简单,但已经具备了一个机器翻译程序所需的基本功能。初步的成功让我们备受鼓舞,我和俞老师都同意将这项合作继续进行下去,开发一个初步实用的汉英机器翻译系统。
1996年和1997年,我们又就这个项目跟北大签署过两个补充协议,一方面是继续合作,另一方面,我们以非常优惠的价格购买了北大开发的一些语言资源和工具。这一阶段,除了软件的继续完善以外,还有两件工作量比较大的事情,一个是将系统从Unix平台移植到Windows平台,另一个是词典的开发。词典的知识来源主要有三个部分。第一部分是汉语的语法信息,主要来源于北大提供的汉语语法信息词典。第二部分是词的语义信息,是我们课题组自己独立开发的,我们设计了一套当时比较先进的语义描述体系,一方面通过一个语义分类体系(现在通常称为本体Ontology)描述每个词的语义,还可以对每个词配价关系的描述来说明一个词可以跟哪些语义的词搭配。这部分开发工作由北大的王惠老师负责。第三部分是汉语词到英语词的翻译信息,也是我们根据几部汉英词典独立开发的。1996年,我们就汉英机器翻译系统申请了863项目并得到了支持,经费16万元人民币,不久以后又得到了一个计算所所长基金的支持,这标志着我们的机器翻译研究正式从自选项目的状态转入了官方认可的状态。1998年,863项目结束,我们的系统也初步开发完成。当年,我们参加了863专家组组织的中文信息处理与智能人机接口技术评测,参加汉英机器翻译评测的共有三个系统,我们在翻译质量方面以比第二名微弱的优势获得第一,但在用户界面方面,由于程序运行过程中的一个错误被扣分,导致总分名列第二。当时的评测结果全文刊登在《计算机世界》报上。这是我们的系统第一次出现在公众视野中,应该说,成绩还不错。这次评测给了我们很大的信心。
从我1992年毕业到1998年我们的系统在863评测中取得较好的成绩,我的工作应该说出现了一个小的高潮。这一年我的一篇论文发表在美国的AMTA会议上,我在1997年评上了副研究员。更重要的是,我在工作中结识了很多今后非常好的朋友。在计算所,除了我以外,先后加入了我这个小组的有博士生刘颖、王斌、李素建、鲁松和员工叶煜。王斌后来留在计算所,先后在软件室和前瞻研究中心工作,现在是前瞻研究中心信息检索课题组组长。刘颖毕业后去了清华大学当老师。李素建和鲁松来得比较晚,很快就随着所里的改革进入新所软件室,叶煜工作很短时间后就离所了。北大的詹卫东这期间获得了硕士学位,并开始攻读博士学生。我们几个人长年在一个办公室工作,结下了深厚的战斗友谊。特别值得一提的是詹卫东,他在我这个课题组工作的时间最长。他是北大中文系陆俭明教授的学生,在汉语语法研究方面有很深厚的功底,对汉语的各种语言现象非常熟悉,在课题组内负责规则库的编制和调试。对于他来说,用形式化的计算机规则方式处理语言是一种全新的体验,尤其是在进行机器翻译的时候,就会发现,机器翻译所要处理的语言学问题跟他平时在语言学领域关心的语言学问题差距非常大,他会经常发现各种各样的问题提出来跟我们讨论。而我当时也对汉语的分析非常感兴趣,看了很多语言学、特别是汉语语法理论的书籍,我们经常就语言学中的大大小小的各种问题进行非常深入的探讨。由于机器翻译几乎涉及到一种语言的所有各种语言知识,所以我们的讨论也涉及到了语言学的方方面面,我们把语言学中的很多概念按照我们的理解重新进行了清理,形成了我们共同的一些理念。这种讨论让我们都受益颇深,对我们今后的工作都产生了非常深远的影响。对我来说,我从一个语言学的门外汉变成了一个“票友”,对语言学的各种理论我至今都有着浓厚的兴趣。语言对我来说不再只是计算机处理的一堆数据,而是在其背后隐藏着深刻的规律性。到现在,虽然我们已经完全转到了统计机器翻译这个方向,但我并没有像一些纯粹的经验主义者一样,对语言知识在机器翻译翻译中的应用失去信心,而是一直坚持把一些语言学的知识引入到统计方法中,并获得了某种程度的成功。我也坚信,结合语言知识的统计模型将是机器翻译方法的最终归途,我们将沿着这个方向一直走下去。对于詹卫东来说,机器翻译的工作经验使他相比于其他的语言学研究者而言具备了一种独特的视角,这种视角更加全面、更加理性,这也使得他的研究工作在语言学界受到了更加广泛的关注。詹卫东于1999年博士毕业,他的博士论文“面向中文信息处理的现代汉语短语结构规则研究”就是根据他在机器翻译中的工作总结提炼形成的,这篇论文获得了2001年全国百篇优秀博士论文奖。现在詹卫东已经是北大中文系应用语言学方面的负责人,而且担任了北大计算语言学研究所的副所长。
对于当年开发的这套基于规则的机器翻译系统,我现在想起来还是比较满意的。这个系统最大的优点在于提供了一套具有强大的翻译知识表达能力的规则描述语言。通常,基于规则的机器翻译系统最大的问题就在于词典和规则库的调试。一般情况下,没有经过数十乃至数百人月的调试,规则数目没有数千条以上,系统很难达到初步可用的水平。而我们的系统除了在词典开发阶段招聘了一些临时人员以外,一般只有两三个人进行词典和规则库的开发,真正进入调试阶段只有三四个月的时间,调试了四千个左右的汉语句子,就在863评测中取得了较好的成绩。这一方面得力于詹卫东博士深厚的汉语语言学功底,为我们的规则系统打下了良好的基础,另一方面,也确实是因为我们定义的规则描述语言非常强大,可以比较清晰准确地描述各种类型和各种层次的语言知识,为詹卫东这样的语言专家提供了得心应手的工具。詹卫东博士对这套规则描述语言使用得非常顺手,以至于直接用在了他的语言研究工作中。在他的博士论文以及其他一些论文中,都直接采用这套规则描述语言。而且,后来由于我转到了统计机器翻译方法,原来的系统已经弃之不用了。但詹卫东博士对这个系统仍然不忍放弃,我就把系统的全部源代码给了他。他把其中的汉语分析部分独立出来,后来,他又带了一个学生,在我的帮助下,把原来的规则描述语言进一步完善,主要是增加了一些内嵌的函数,并增加了主观评分机制,使得规则的描述能力更加强大。詹卫东博士把这套句法分析器和他后来开发的句法树库管理工具结合起来,构成了一个完整的汉语句法知识管理平台,他至今仍在使用。其中的汉语句法分析器在面对真实语料的时候正确率能够达到60%以上,这对于一个基于规则的系统来说是非常不容易做到的。有趣的是,詹卫东作为一个语言学家,为了开发这套工具,自学起了C++语言,到后来自己已经成了半个编程高手了,程序中的很多问题他都亲自上阵解决,当然也免不了有一段时间经常就一些比较难解决的问题“骚扰”我。由此也可见詹卫东的勤奋与钻研精神。对这套工具,我们一直希望把文档好好整理出来,将有关成果发表成论文,并将这套工具公开出来提供给其他语言学研究人员使用。到现在为止他可能觉得一直还不完善,所以还没有这样做。但我想这是迟早的事情。
除此之外,我们这个机器翻译系统还产生了一些有意义的结果。我们开发的机器翻译词典的语义部分,采用了前面提到的基于配价的描述模式。虽然我们在词典的语义分类体系设计和词典开发的质量方面都做得非常粗糙,但这种思想还是很先进的。当时组织这部词典开发的北大教师王惠发表的一篇介绍这部语义词典的论文就有很高的引用率。这种基于配价的语义词典设计思想明显不同于自然语言处理界常见的语义词典(如同义词词林、Hownet、Wordnet)的组织形式,比较适合于机器翻译系统的使用(目前看来,这种设计思想有点类似于Fillmore设计的FrameNet的思想)。俞老师对我们这套词典的设计思想非常欣赏,后来北大计算语言所和北大中文系合作在这种设计框架下完成了一部新的《现代汉语语义词典》。
另外,我们还跟俞士汶老师签署了一份协议,授权北大计算语言所帮我们转让这个机器翻译系统的成果,包括其中的软件和词典等等。由于俞士汶老师开发的汉语语法信息词典影响非常之大,全世界开展汉语自然语言处理研究的几乎所有著名的大学和研究机构都陆续跟俞老师谈判转让了这部词典的使用权。在谈判的过程中,俞老师也顺便跟这些机构推荐转让我们机器翻译系统的成果,几年下来,竟然也收获颇丰,转让次数估计有七八次吧,转让金额总数也有近百万元人民币,其中一半左右分到了计算所。我记得还有一份软件还免费转让给了香港中文大学做教学用。
计算所改革·跟李所长第一次接触
在这一期863项目完成以后,我们的机器翻译研究开始工作变得困难起来。虽然我们又成功申请了一期863重点课题,但实际上项目经费只到位5万元。
1998年底,计算所新领导班子上任,高文任所长,科学院宣布对计算所进行重大改革,原来1000多人的计算所绝大部分人进入企业形式的计算所二部,重新组建一个不到100人编制的小计算所,小计算所同时又是联想研究院。这使得计算所进入了一个动荡不安的时期,很长一段时间,大家都人心惶惶,不知道将来要向何处去。后来,有一些人的去向逐渐明朗,部分人进入计算所二部,另外少数人进入新成立的小所,同时也是联想研究院。不过让我着急的是,我的工作没有任何着落。原来的二室已经解散,张祥老师出国了,这时刘颖已经毕业去了清华大学,王斌刚刚毕业,留所进了智能中心,而我既没有进入二部,也没有被吸收进小所,成了孤家寡人。从一些间接的消息看,小所似乎按部就班地成立并正式开始运转了,但对于我(可能还有其他一些人)来说,我没有从任何正式的渠道得到小所成立的任何信息,也没有任何人对我们将来的安排做出任何解释或说明。我第一次对未来感到如此的茫然。其实我也不是没有地方可去,俞士汶老师非常欢迎我进入北大(俞老师很长时间一直在北大为我保留了专门的工位和计算机,虽然我并没有去北大上班),自动化所模式识别实验室也在向我招手,还有一些公司只要我愿意也都可以去。但我还对计算所抱有一丝留恋,希望计算所能给我一个解释,而不是这样不明不白就走了。
那时我找了所里不少领导和部门的负责人,都得不到正面的答复。有一天下班的时候正好遇到李所长(那时候还是智能中心主任),我就壮起胆子跟他打了个招呼,说想跟他谈谈。李所长就带我到他办公室聊了一会儿。我跟他说了我的情况,表示了希望进入智能中心的愿望。他对我的情况好像也大致知道,只是告诉我,我所做的机器翻译研究,如果不能结合到具体的项目中,在智能中心会很困难。谈话的时间很短。虽然他没有正面答复我,但从他谈话的口气看,我感觉还是很有希望的。
这是我第一次跟李所长直接接触。我在计算所这么多年,跟李所长的接触并不多。不过,这寥寥可数的几次接触,对我的在计算所的工作都产生了重大的影响,后面我会陆续提到。
我最早认识李国杰所长,还是我在中国科学技术大学计算机系学习的时候。那时他刚从国外回国不久,我们学校的陈国良教授邀请他到我们系做了一个系列学术报告,介绍了国际上并行处理方面的最新动态。不过那时候我对他的印象还不是很深。
到计算所以后,我才知道,李国杰已经担任了智能中心主任,名气非常大,几乎可以用如雷贯耳来形容。不过在很长时间里,我都没有跟他直接接触过。对他的了解,都是通过各种媒体以及同事之间私下的交流得知的。这次也是走投无路了,才想起来去找他。
1999年末,所里的情况出现了大的变化,李国杰院士接任计算所所长,计算所的改革方向逐渐明朗起来。计算所和联想研究院进行了明确的分割,计算所内成立了六个实验室,而我也在2000年初得到樊建平副所长的通知,让我到白硕那儿报到,正式进入新成立的由白硕担任室主任的软件研究室。
在我焦急等待的这段时间里,我做了一个重要决定,就是在1999年报考了北大的博士研究生,并被正式录取为俞士汶老师的在职博士研究生。1999年末,俞士汶老师得到一个973子课题“面向新闻领域的汉英机器翻译系统”,俞士汶老师让我以计算所员工和北大博士生的双重身份,担任这个课题组的技术负责人,总算把我的机器翻译研究工作延续下来了,不过主要的研究工作已经从计算所转到了北大,北大和计算所签署了一个协议,分担了其中的部分工作,这个项目的另一个合作单位是清华大学,由当时已经留在清华当老师的周强博士带两个硕士生参加。
二室的一些人和事
我在二室的时间前后有10年之久,这里面经历了很多事情。其中还有一些人和事我觉得有必要写出来。
高庆狮院士本来是我的硕士导师,但自从我到计算所以后很长时间就一直没有见过他。虽然如此,我还是听到了很多有关他的传说。后来到1990年代末他回国后,到北京科技大学工作,我听了他的一次报告。我进入软件室以后,他也被李所长重新请回计算所,我们接触机会才多了一些。我跟高院士有过一些深入的交谈,感觉高院士看问题总是站在很高的理论角度上,跟他的谈话总是让我很受启迪,也让我望尘莫及。
我刚到二室的时候有一个师姐张玉洁。她是高庆狮的学生,在我到二室的时候已经硕士毕业留所工作,等我1992年硕士毕业留所的时候,她到日本去攻读博士学位。没想到,十几年后我们竟然成了合作伙伴。我也忘了具体是什么时候,大概是2002年下半年吧,她所在的日本综合通信研究所(现在已经改名叫做日本情报通信研究机构)希望到中国寻找合作机会,我们见过几次面。后来,我们又在一个中日自然语言处理研讨会上见了面,我们也互相对对方的工作有了比较多的了解,她在2004年初邀请我到日本进行了一个月的访问。这以后,我们就在一些领域开始了合作。最主要的合作是我们在863评测中的合作。她所在的研究所成了我们组织的863机器翻译评测的日方合作单位,帮助我们组织日本的研究机构参加评测、制作与日语相关的测试语料、并进行与日语相关的机器翻译人工评价。我们在这方面的合作非常成功,并在2005年的MT
Summit X会议上合作发表了两篇学术论文。到现在,除了863评测,我们还在其他一些项目上开展了进一步的合作,并且每年都在各种会议上有很多次见面交流的机会。
我对二室印象还比较深的一项工作是张玉志的计算机围棋算法研究。计算机围棋是一个非常困难的研究课题,当时张玉志提出了一种类似于磁场的棋子影响力计算方法,可以比较方便地在序盘阶段判断双方的势力范围,确定关键的位置,理论上做得相当的漂亮。1990年张玉志还在计算所承办了一次由台湾应昌期先生资助的世界电脑围棋大赛,非常热闹。当时有一个趣闻,据说是两台计算机下棋的时候,在一个地方形成了比气互杀的局面,其中一方走出了一个“金鸡独立”,本来是活棋,眼看就可以杀死对方了,结果该方的计算机程序竟然主动认输了,一时传为笑谈。我想现在的计算机围棋程序应该不至于犯这么低级的错误了吧。另外一件值得一提的事情就是,当时还进行了少年棋手和计算机的比赛,都是让子棋。虽然少年棋手赢得了大多数的比赛,但唯一一个获得全胜的少年棋手就是常昊。当时很多人都看好的这个毛头小伙,现在已经成了中国围棋挑大梁的人物了,想起来不由得让人感慨。计算机围棋研究和机器翻译研究一样,都是对人类智力进行挑战的工作,我至今仍然认为是非常有意思的,哪天要是等我有闲了,我倒很想尝试一下。
我毕业后留在二室的时间里面,还有一小段时间跟刘志勇研究员做了一点并行算法的研究,帮他把一个在n-cube上的并行算法移植到了另外一种结构上,还发表了一篇论文。后来不久刘志勇就调到国家自然科学基金委去工作了。
大概在1999年前后,我还跟李锦涛老师的课题组合作,将我们开发的汉英机器翻译系统移植到了将要推出的联想天玑掌上电脑中。我们顺利完成了这项工作,不过后来联想天玑正式推出的时候并没有选择我们的系统作为随机软件。
我在二室的时候,钱跃良老师一直担任863专家组办公室的主任,有一段时间还是二室的副主任。当时我们打交道并不多。没想到这么多年以后,我又进入数字化研究室加入了钱老师的课题组,在钱老师的领导下工作。现在钱老师是我们多语言交互技术评测实验室的主任。
老二室的人现在还留在计算所的,除了高院士、钱老师、我和王斌以外,还有宋铟(软件室秘书)、齐蓉(计算机研究与发展编辑部)等人。
对智能中心的印象
改革前的几年,计算所很多部门的情况都是每况愈下。只有少数几个部门情况较好,而智能中心无疑是其中状况最好、也是最活跃的部门。我当时由于埋头机器翻译的研究开发,对其他单位的情况并没有太关心,但智能中心的一些情况还是不断传入耳中,我们知道了智能中心开发出了著名的曙光计算机、智能中心有很好的研究氛围、智能中心的人收入很高,等等。二室的很多人也都陆续转到了智能中心工作。我自己唯一跟智能中心接触的机会就是参与了当时智能中心讨论班的一些讨论。当时两周一次的智能中心讨论班非常火爆,吸引了周边各研究所和高校的很多青年人来参加,传播了很多的新思想,讨论非常活跃。我自己也应邀在这个讨论班上介绍了当时我所在的陈肇雄机器翻译课题组的一些情况。当时负责这个讨论班的是一个年轻的小伙子,他的名字我不记得了。刚开始,白硕还是北大的学生,他跟他的一个同学(忘了名字,好像姓王,单名)在这个讨论班上非常活跃,名气很大。后来白硕毕业后到智能中心工作,原来的讨论班主持人也出国了,这个讨论班就由白硕等人负责,延续了很长一段时间。
在软件室
计算所的新气象
李国杰担任所长以后,计算所的面貌发生了很大的变化,各方面都开始显现出一种蒸蒸日上的局面。在这种大的环境下面工作,人的精神面貌都一下子好了起来。
我所在的软件研究室也是一个非常有活力的研究团体。这里承担了很多大型的国家项目,人才济济,研究氛围非常好,学生们的思想也很活跃,大家工作也都特别努力。室主任白硕和后来接任的程学旗知识面都非常广泛,对前沿的学术动态也都很了解。在这种环境下,我的研究工作也取得了一些新的进展。
研究工作进展
2000在很多方面对我来说都是一个新的开始。我不仅仅是开始了博士阶段的学习,开始进入软件室这样一个新的环境,开始承担了机器翻译研究的新课题,而且开始做爸爸了。可以想象得到我当时的手忙脚乱。
这时候我一直在考虑的一件事情就是,我们的机器翻译研究下一步向什么方向去。按理说,如果要提高现有的基于规则的机器翻译系统性能,应该找人用大量各种各样的句子进行调试,改进词典和规则库。但说老实话,我很不喜欢这种模式。因为凡是调试过机器翻译规则的人都知道,这是一件极其痛苦的事情。有点像计算机编程时的Debug,但不同之处是,机器翻译规则的调试似乎是一个永远没有尽头的工作,我们经常是按下葫芦起来瓢(所谓翘翘板现象),这边的句子调好,但原来调好的一些句子又出错了。虽然总体上说,系统的性能在不断改进,但这种改进非常之慢,以至于这对于调试者来说,这是一件非常没有成就感的事情。我自己就很不喜欢做这种事情,同样也不希望让别人去做这种事情。所以我已经下决心抛弃这种大规模调试规则的方法了,而是希望从算法角度对机器翻译系统的性能加以改进。但当时,我还看不清有什么方法能在本质上超越规则方法,当时主要的设想就是从以下几个方面对机器翻译系统加以改进:
l 改进原有的汉语分词程序和汉语句法分析程序;
l 扩大词典规模;
l 建立一个短语库;
l 构造大规模双语句子对齐语料库;
l 构造小规模双语组块对齐语料库,试图从中自动抽取规则;
l 引入基于实例的机器翻译引擎;
l 采用多引擎方法,将基于实例的引擎和原有基于规则的系统以及其他一些技术结合起来,提高系统的综合水平。
为了尽快推进项目的进展,在项目的初期,我想把我在计算所习惯的项目管理方法应用到这个项目中,也就是制定比较详细的进度计划,每周开会讨论了解督促进度。不过实践证明这种做法在这个项目中行不通,北大和清华的老师和学生都不能适应这种做法。我只好放弃了这种做法,还是大家分头开发,最后集成。
经过一段时间的讨论和磨合,我们三个单位的分工逐渐清晰,清华主要负责提供一个汉语分词模块和一个汉英命名实体的翻译模块,北大主要负责资源的开发,包括双语词典的扩充、语义词典的扩充和双语语料库的开发,以及完成一个基于实例的翻译引擎。计算所(主要是我本人)主要负责多引擎方法的设计和系统的总体集成。实际上,对于北大和清华的研究开发工作,除了开始阶段我试图统一进行管理那一阶段,后来我就很少直接介入了,只是把他们开发的各种词典、语料库和工具集成到了我们最后的系统中。
当时,计算所的开发人员主要是我自己,北大投入的人较多,包括詹卫东(语料库和词典)、常宝宝(基于实例翻译、语料库)、孙斌(分词)、王惠(语义词典)、陈玉忠(组块对齐的语料库)、吴云芳(双语短语库)等人,还有一些短暂参加但很快就退出了,这里就不一一列出。清华大学除了带队的周强外,还有两个硕士生(负责汉语的词语切分和词性标注模块和命名实体的翻译模块)。这时候周强已经是清华大学的博士后了。
后来,在计算所我又有了几个学生,也有一些员工参加了我这个组的一些工作。到2003年我离开软件室为止,陆续在我这个组工作过的人包括我自己的学生王长胜(他是中科院研究生院的学生,找到我做他的导师)、李继峰、邹纲、邓丹,程学旗的学生张华平、白硕的学生张浩和李丙辰(后来根据他的个人兴趣转成了徐志伟副所长的学生),客座员工张奕滔、张彤,客座研究生俞宏魁,员工周立新,另外员工黄雄和梁焰也少量参与这个项目的一些工作。
在软件室这几年(2000-2003),实际上也就是我在北大在职攻读博士学位(1999-2004)的主要时间。刚开始,对于机器翻译如何做,我的思路实际上并不很清晰,但我对机器翻译的信念却一直不减,在跟室主任程学旗的多次谈话中我都跟他表达了我这种信念。我也要感谢软件室当时并没有给我安排其他工程性的项目工作,让我有精力在机器翻译的各个方面做了很多的探索,虽然当时这种探索并不很成功。
我在计算所的工作并没有局限于只做多引擎方法和系统集成,而是跟小组的其它成员一起,几乎尝试了所有我能想到的各种方法,试图提高机器翻译系统的性能。虽然系统比原先简单的基于规则的系统有一定的提高,但总体效果并不显著。这一段时间做的很多事情有些不了了之,但也有很多工作取得了很好的效果,为我今后的工作奠定了重要的基础。下面我分别介绍这些工作。
l 双语词典
早期基于规则的机器翻译系统一个重大缺陷就是词典规模太小。于是我们就从网上收集了数十部各种形式的电子词典,投入人力进行数据整理和归一化,得到了一部相当规模的电子词典(含大约42万词条)。这部分工作李丙辰开了一个头,后来由于个人兴趣原因,他很快就转到了徐志伟所长的网格组去了。不过这部分工作我们一直延续下来了,并把这部词典以数据库形式放在了网上供大家免费查询,竟然非常受欢迎。在没有对这部词典做任何宣传的情况下,现在每天的访问量都在1000次以上,很多人还经常给我发信跟我探讨这部词典的一些问题。我们现在已经把这部词典扩充到了数百万词条(没有放到网上),不过由于我们后来参加的机器翻译评测主要是参加受限语料的评测,这部词典并没有直接用上。不过我想这是一个非常宝贵的资源,总有发挥作用的时候。
l 双语语料库
早期我们的基于规则的系统是完全不使用语料库的。自从我决定不再采用人工调试规则的方法以后,从语料库中学习翻译知识是必然的途径。虽然具体采用哪一种策略还不明了,但是语料库总是不可缺少的。虽然按照分工这一块工作由北大来做,但我想语料库总是多多益善的,所以我在计算所也组织课题组成员收集了一批语料库,这项工作当时由梁焰等人负责,总共收集了大约18万句对。后来,我到数字化室以后,这些语料库用在了我们承担的一个973项目的子课题中,目前已经可以通过ChineseLDC进行转让,也可以在我们课题组的网站上在线查询。我们后来的机器翻译和词语对齐等工作都使用了这个语料库。后来我们组织的863评测,也把这个语料库作为训练数据的一部分。但我们参加NIST评测并没有使用这个语料库,因为我们参加的是限定训练语料库的项目,只能使用NIST指定的语料库。
l 参加NIST评测
2002年,我了解到美国NIST要进行一次机器翻译评测,测试的语言主要是汉语到英语和阿拉伯语到英语的翻译。由于我一直在做汉英机器翻译,而且在1999年的863评测中也取得了不错的成绩。汉语又是我们的母语,应该说我们还是有一定优势的,所以我积极投入了汉英机器翻译评测。由于时间紧迫,我无法对原有的程序做大的改进,只是把我们收集的一部大规模汉英词典加入了系统中。但结果却让我大失所望。由于我使用的是规则方法,完全没有使用评测提供的任何语料和工具,而是使用了自己的词典,所以我参加的是不受限语料的项目。结果在不受限语料项目的四个参评系统中,我们的结果排在最后一名,即使加上受限语料项目的六个参评系统,我们也只能排在倒数第二。这个结果让我非常沮丧,但反过来,也让我看清楚了,与传统的规则方法相比,统计机器翻译方法的优势已经非常明显,机器翻译的研究转向统计方法将是一个不可避免的趋势。这件事使我最终下定决心转到了统计方法上来。对我来说,虽然参评结果很差是一件坏事,但从另一个方面说,这件事让我认清了今后工作的方向,让我看到了机器翻译研究的希望所在,对我来说终究是好处多于坏处。
l 中文自然语言处理开放平台
从事自然语言处理和机器翻译研究这么多年,我有一个很深的感触,就是这个领域门槛较高。从事这个领域的研究,如果没有一定的基础和积累,没有一个合适的研究环境,是很难入门的。虽然很多研究者对中文的处理都非常感兴趣,但苦于缺乏基础,不得其门而入。因此,我一直很想为这些人做一些事情,以便降低这个研究领域的门槛,让更多的研究者能够方便地进入这个领域,从事这方面的研究工作。恰逢当时接触了很多开放源代码运动的资料,于是我就萌发了一个想法,就是借鉴开放源代码的形式,做一个公益性的网站,专门提供免费的中文自然语言处理方面的资料,不仅仅有源代码,还可以有词典、语料库、论文、资料等等。在不侵犯别人知识产权的情况下,用户可以上载自己手里的资源,也可以下载别人的资源。我想这一定会受到大家广泛的欢迎的,对我们自己的学生上手进行研究工作也是非常有益的。说干就干,我很快把我的想法写成了计划,跟软件室负责人程学旗和白硕讨论并得到初步认可后,我们很快就申请了域名(nlp.org.cn),完成了设计,编写了相关文档(包括我们自己定义的开放资源授权协议),并请张奕滔开始实现这个系统。2002年8月,在北京大学召开了第一次学生计算语言学研讨会,当时我作为在职博士生担任会议的程序委员会主席,在一篇论文中我介绍了这个想法,引起了很多人的注意。不久后我们的网站正式定名为“中文自然语言处理开放平台”(以下简称开放平台),就正式运行了。作为启动的第一批资源,我们把我们刚开发成功并获得973评测第一名的汉语分词系统ICTCLAS(后面还会有介绍)作为开放源代码的资源放了上去,不久我们又整理了一批语料库、词典、开源的工具,后来詹卫东博士也贡献了他读博士期间收集的一大批资料,我们的网站就红红火火地开张了。我当时给科学时报写了一篇稿子,他们很快采用并报道了,结果这篇稿子很快被很多报纸转载,产生了很大的影响。现在这个网站每天下载的资源数量大约为200-500份,注册用户超过8000人。作为一个专业的学术网站,这无疑是很少见的。我们当时希望,在google等搜索引擎上输入“自然语言处理”六个字,我们的网站能很快就能找到。结果这个目标很快就达到了。现在,在任何一个主流的搜索引擎上输入这几个字,我们的网站都牢牢占据了第一位。
l 汉语词法分析
汉语词法分析,包括汉语的切词、未定义词识别和词性标注,是很多汉语自然语言处理工作的基础。从1980年代起,各国学者,尤其是中国学者在这方面投入的大量的精力。因为不管在哪方面研究,比如机器翻译、信息检索、文本分类、自动文摘等等,首先要做的都是切词。由于没有公开好用的切词工具,所有从事中文自然语言处理研究的学者首先都要开发一个切词系统,这就导致这方面的研究论文层出不穷。但如果仔细分析,会发现其中大部分的工作都是在低水平上重复。虽然有一些汉语切词系统已经达到相当高的质量(如北语的系统和北大的系统),但由于普通研究人员无法得到这样的系统,因此对于绝大部分研究人员来说,缺乏好的分词系统依然是一个非常严重的问题。由于分词并不是一个很简单的问题,尤其是词语切分歧义问题和未定义词识别问题往往纠缠在一起,这就导致汉语的切词变得比较困难,单纯依靠规则方法很难得到很好的结果。而当时采用统计方法进行切词研究的还不太多,尤其是将切词、未定义词识别和词性标注等问题结合起来的研究还非常少见。这也导致很多原本希望从事其他中文处理研究的学者不得不陷入了切词问题的研究之中,而削弱了对其本来研究问题的关注。我自己在原来的机器翻译系统中,也开发了一个纯粹基于规则的汉语词法分析系统。由于缺乏足够的调试,分词效果当然很不理想,因此开发一个好的分词系统也是一个迫在眉睫的问题。刚好这时候我看了很多自然语言处理中统计方法的文章,我发现,隐马尔科夫模型是一种相当强大的工具,应该可以解决汉语词法分析中的各种问题,包括切词、未定义词识别和词性标注。于是在2001年下半年,我开始让张华平开展这方面的研究。张华平是个非常聪明也非常勤快的学生,虽然他原来并没有任何自然语言处理工作的基础,但他很快就动手做了起来。刚开始他还不太能理解我的设想,就不断地跟我来讨论,在这种讨论中他慢慢理解了我的设想,而且在一些细节上对我原先的设想也进行了进一步的改进和完善。我们采用北京大学计算语言学研究所开发的人民日报语料库作为训练和测试语料,实验结果令我们非常满意。2002年7月,我们参加了973项目组授权姚天顺老师组织的汉语词法分析评测,我们的系统ICTCLAS在参加评测的三个系统中,以微弱的优势领先第二名的系统获得第一,这让我们非常高兴。
虽然我们的词法分析程序效果非常好,但说实话我并没有把这件事看得很重。毕竟词法分析只是机器翻译的第一步,而且是非常小的一步。我忽然有了一个想法,就是把这个系统以开放源代码的形式公开出来,一方面,可以让所有为汉语切词而苦恼的人解脱出来,不要再纠缠在汉语切词问题上,而可以关注他们应该关注的研究问题。另一方面,可以为真正从事汉语分词研究的人树立一个标杆,不要再做低水平重复的工作,至少跟我们这个系统相比水平要有所提高才有意义吧。这个想法得到批准后,我们很快把我们的系统源代码放到了刚开张的“开放平台”上。正好这时计算所组织向社会公开了一批开放源代码的工具,我们就把我们这套汉语词法分析系统ICTCLAS和另一个汉语句法分析系统ICTPROP加入了这次活动,通过计算所网站也向社会公开。在2002年底,我们了解到国际上刚刚成立的汉语处理兴趣小组Sighan要举办第一届汉语切词评测比赛,我们也积极参加了这次评测比赛,评测时间是在2003年4月,结果我们在有关汉语简体文字切分的四个评测项目中,得到了两个第一名和一个第二名。这使得我们的研究工作在国际上引起了更多的关注。到目前为止,ICTCLAS已经成为最有影响的汉语切词工具,在计算所网站开源软件网站上下载次数达4500多次,在“开放平台”上的下载次数也应该有数千次,加上用户其他途径的传播,我们估计ICTCLAS的用户数量应该会有1万以上。在Google等著名搜索引擎上搜索ICTCLAS,可以查询到的网页都在6000篇以上。东北大学的博士生张乐把这个系统移植到了Linux上,并把移植的结果上载到了“开放平台”。在“共创软件联盟”上也出现了一个ICTCLAS
FOR
JAVA的项目。另外,网上还有大量的文章讨论ICTCLAS的Bug,求解其中的问题。由于我们没有提供英文的文档,也没有在英文网站上发布这个软件,国外用这个软件的人还不像国内这么多。不过还是有很多中国研究人员把ICTCLAS用在了他们在国外研究机构的研究成果中。在Google
Scholar上查询ICTCLAS可以查到90篇文献,其中就包括了很多国外的文献。由于我们一直很忙,ICTCLAS的1.0版推出后,我们就一直没有进行升级,其中的一些Bug我们也没有来得及打上补丁。不过我们现在已经开始着手做这件事情,相信不久就会有2.0版本出来。另外,我们在课题组的网站上也提供了ICTCLAS的在线测试版本,供大家随时测试。
l 汉语句法分析
在进行汉语词法分析的同时,我们组另一个硕士生张浩也在进行汉语句法分析的研究。我原来在机器翻译中开发了一个基于规则的汉语句法分析器,我很希望张浩能开展统计句法分析的研究。张浩的导师白硕研究员对于汉语句法分析提出了一种叫做角色反演的算法,因此也同意张浩进行这方面研究。张浩在查阅有关资料的基础上,提出了一种基于结构上下文特征的汉语句法分析算法,其中也实现了白硕提出的角色反演方法。这种算法比单纯的概率上下文无关语法的句法分析性能有所提高。这种做法不同于当时性能最好的词汇化概率上下文无关语法相比。与词汇化概率上下文无关语法相比,性能略低,但复杂度也较低。这个句法分析器虽然没有达到当时国际上已经发表的最好水平(在同样的训练和测试数据上比较),但比我原来的基于规则的句法分析器已经有了大大的提高。我们后来把这个软件的核心算法部分也以开放源代码形式在“开放平台”和计算所网站的免费资源栏目同时公开了。在计算所网站上的下载次数同样达到了4000多次。后来张浩毕业后去了美国Rochester大学读博士,还是从事与自然语言处理相关的研究工作。我们到数字化室以后,我们课题组另外两名硕博连读生熊德意和米海涛后来继续在汉语句法分析领域开展了很多研究工作,目前我们的系统性能已经超过了国际上已经报道的最好水平,而且这个句法分析器已经用在了我们的统计机器翻译研究中,发挥了很大的作用。这个系统也在我们课题组的网站上提供在线测试。
这段时间与句法分析相关的另一个工作是李素建在她的博士论文工作中开展了汉语组块分析的研究,不过这项研究并没有形成可使用的软件工具。
l 基于知网的词语相似度计算
基于知网的词语相似度计算研究是我的一项意外收获。2002年5月要在台湾召开第一届汉语词汇语义学研讨会,当时我的导师俞士汶教授作为国内召集人向大家征集论文摘要。我当时响应俞老师的号召,也投了一篇摘要,题目就是“基于知网的语义相似度计算”。当时我并没有做这项研究,只是有了一个朦胧的想法。因为词语相似度计算是很多场合都需要用到的一项技术,包括基于实例的机器翻译也需要用到。而知网是一个内容丰富的语义知识库,但由于知网的结构比较复杂,将知网应用于实际的自然语言处理研究中的实例还不多见。因此我就有了这么一个想法,但当时并没有实现。加上这次会议为部分大陆的优秀论文提供了去台湾开会的资助,这对我也是很有吸引力的,所以我就提交了一份论文摘要,但也没有抱多大希望。没想到论文被录用了,而且还得到了资助。我只好花了一些时间把这篇摘要扩充成了完整的论文,为了用实验说明我这个算法的效果,我还开发了一个软件来实现这种算法。后来这篇论文又被推荐到台湾出版的Computational
Linguistics and Chinese Language
Processing杂志上发表(2005年8月),我也把我开发的软件的可执行程序在网上公开了。让我意外的是,这篇论文竟然引来了大量的关注,现在在Google
Scholar上查这篇文章已经有39篇引用,是我的所有论文中引用率最高的一篇。知网的发明人董振东也非常欣赏这篇论文的工作,后来他在推出知网新版本的时候,也提供了一个词语相似度计算工具,这个工具就是根据我这篇论文的思想编写的。这真是无心插柳柳成荫的一个最好注解。我以后也没有再进行这方面的研究工作。这次会议的另一个收获就是让我有机会踏上了祖国宝岛台湾,除了在台北开会几天以外,我们还到台东的花莲太鲁阁一带旅游,饱览了台湾美景,让我至今难忘。
l 重复串识别和新词检测
汉语切词中,未定义词识别是一个最困难的问题。对于常见的人名、地名、机构名等命名实体,我们采用隐马尔科夫模型,已经能够较好地解决问题。但还有很多新词仍然无法识别。但我们可以注意到,新词往往在一篇文章中是反复出现的,利用这个特点,也许可以在一定程度上帮助进行新词语识别。另外,文章中的重复串其实不仅仅是词语,通常还可以是一些有意义的短语,这对于句法分析等其他工作也都是非常有意义的。基于这个想法,我开始在课题组内开展这方面的研究工作。客座员工张彤和硕士生邹纲陆续开展了这方面的研究工作,实验取得了很好的效果。后来我转到数字化室以后,以此为题和富士通研究开发中心开展了两期的合作研究工作,这两个项目分别由硕士生邹纲和崔世起承担,主要工作是把新词识别的研究扩展到了Internet上,从Internet上采集的大量网页并从中提取新词,实验非常成功。在我的建议下,崔世起还把这项工作扩充到了汉语缩略语的识别和还原,也取得了成功。富士通公司对这个项目很满意,邹纲毕业后就进入了富士通公司工作,而且还是进行这方面的研究。目前我们已经停止了这项研究,相关工作做成了一个网页,放到网上,每天自动从网上采集网页进行分析,自动形成每月的新词报表公布在网上。我不时还能得到有关这方面研究工作的一些反馈。
这段时间,我们还在计算机辅助翻译、基于实例的机器翻译、多引擎机器翻译、汉蒙机器翻译方面做了一些工作,这里就不一一介绍了。
除了上面的工作之外,我在软件室的时候,还有一小段时间参加了高文老师牵头的联合国UNL项目(实际上也是一个多国语言机器翻译项目),当时高文老师让我和史晓东负责。我做了一段时间,觉得这个项目本身设计非常糟糕,就退出了。史晓东不久也去了厦门大学。
2003年中旬,我正式从软件室转到李锦涛老师领导的数字化室工作。主要的原因是数字化室钱跃良老师和林守勋老师这时候承担了863大规模语言资源建设和863评测课题以及北京市奥运项目中的类似课题,由于我在自然语言处理领域长时间的积累,他们很希望我能参与这些项目的工作,而且也支持我继续从事机器翻译的研究。而我在软件室的工作由于长期定位不是很明确,而且我也短期内也很难申请到大的课题,因此我的工作处于了一种比较尴尬的地位,软件室也不太支持我继续在机器翻译方面开展研究。因此我下决心离开软件室来到了数字化室。
软件室的一些事情·跟李所长第二次接触
我在软件室总共呆了三年多时间。在这段时间,我跟李所长只有过一次接触,这也是我跟李所长的第二次直接接触。其实,进入软件室后,虽然我很长时间一直没有单独见过李所长,但我能感觉到,所里对我进行的机器翻译研究还是非常关心的。樊所长多次介绍不同的人到我这儿参观我的系统,并给我介绍一些合作机会。可惜我那时候的系统离实用还差得很远,一直也都没有把握住机会。
2001年面试硕士研究生的时候,我被告知跟李所长一起面试研究生。我那时候刚开始招研究生不久,报考我的研究生人数还非常少,而报李所长研究生的人数却非常多。我们见面后几乎没有谈论其他话题,直接开始就面试的问题沟通了一下,马上就开始面试了。面试了一个下午,李所长确定了他要的学生,我对报考我的那个学生不太满意,也在报考李所长的学生中挑选了两个学生,这两个学生就是刘洋和熊德意,是我到目前为止带过的最出色的两个学生,在我们现在的统计机器翻译课题组中,他们两个是最核心的骨干,一些人把他们两个人的名字连起来合称“洋洋得意”。由于最近他们两个人在ACL会议上发表了论文,他们的工作已经在国际统计机器翻译研究领域暂露头角,以至于这个研究领域的圈子里很多人都知道了“洋洋得意”这个名号。
这次见李老师,虽然我们没有讨论任何工作上的事情,但我至少知道李所长还在关注着我的工作。
在数字化室
研究工作进展和取得的成绩
进入数字化室以后,我的工作进入了一个崭新的阶段。我们连续三年组织的863中文信息处理和智能人机接口评测,以其权威性、科学性和公平性吸引了国内大量的研究机构参加,产生了很大的影响。我们组织的大规模资源建设,通过我们和自动化所等单位共同创办的中文语言资源联盟ChineseLDC向国内外提供授权的资源转让工作,目前已经受到国内外很多研究者的关注,成功地实施了大量的资源转让,为国内外同行提供了一个极好的资源共享平台。更加让我高兴的是,我们的机器翻译研究工作全面转向了统计机器翻译方法并且获得了成功。我们在今年8月举办的NIST机器翻译评测中取得了很好的成绩,在汉英机器翻译的受限语料项目(Large
Data)评测中,我们在参评的24个单位中获得了第5名。我们在计算语言学领域顶级学术会议ACL上连续两年发表了3篇与统计机器翻译相关的论文,其中一篇还获得了Meritorious
Asian NLP Paper
Award奖项。这些成绩都标志着我们的研究工作已经跨入了国际先进水平的行列。这些都是近几年的事情了,大家还都记忆犹新,细节我在这里就不详细介绍了。
获得博士学位
2004年5月,经过在北大5年的在职学习,我终于通过了博士学位论文答辩,获得了博士学位。我的博士论文题目是“汉英机器翻译若干关键技术研究”,在论文中我把我近几年的工作做了一个比较完整的总结。我的论文获得了博士答辩委员会的一致好评,担任答辩委员会主席的是高庆狮院士。
跟李所长的第三第四次接触
自从上次跟李所长一起面试学生后,我很长时间都没有再跟李所长直接交流过。即使在我在即将离开软件室那段非常困难的时期,我也不好意思去找李所长谈我的工作问题,主要原因可能是因为我的机器翻译工作一直不见起色,我不好意思再去麻烦李所长。到数字化室以后,我一直想找机会给李所长汇报一下近期的一些工作,但也一直没有下决心,就耽搁了下来。到2005年,我到数字化室差不多有两年了,我的工作在同行中引起了很多注意,李所长可能在一些场合听说了我的一些工作,于是让所里职能部门在我的同行中对我的工作进行了一些调查,可能反响还不错(这些都是我的一些同行告诉我的)。于是,李所长开始在所里的一些会议上对我的工作进行了表扬,大致的意思是我在所里一直默默无闻,在没有得到所里很多支持的情况下,做出了比较好的成绩。所长是在所内一些小范围的场合说这些话的,我自己都不在场,而是别人跟我转述的。这时我也觉得应该向所长汇报一下我的工作了,于是就跟所长约了一个时间面谈。这是我跟所长的第三次直接接触。我们谈的时间也不长,所长直接跟我了解了我目前所进行的统计机器翻译研究的情况,我向他进行了简单的汇报。所长向我询问了其中一些细节,然后建议我除了要跟踪国际上最先进的做法以外,不要一味模仿,一定要注意有本质性的创新(大致意思是这样,原话我记不准确了),这样才能真正走到别人前面去。以后我又找所长谈过一次,主要还是讨论工作上的一些事情。
这以后我的工作开始在所内得到很多的重视,我被评上了研究员职称和博士生导师,并担任了新成立的多语言交互技术评测实验室的副主任。
跟李所长这几次接触,我感觉李所长虽然是中国计算机界举足轻重的人物,又是院士,其实他是个特别实在的人。我们的谈话都很短,几乎没有废话,都是直入主题,事情一谈完马上就结束,他又要去处理下面的事情。他也从来不摆什么架子,都是用一种平等的姿态跟我交流。谈话也非常注重实效,每次谈到的事情都能落到实处,每次跟他交流,对我的工作都有实实在在的帮助。
结语
我在计算所的经历应该还算是比较丰富的。作为一个普通的研究人员,我在计算所的三个不同部门都呆过比较长的时间,我还在北大计算语言学研究所有过在职攻读博士学位的经历,这些不同的经历让我学到了很多东西。在计算所二室机器翻译课题组的经历,将我引入了自然语言处理和机器翻译研究的大门,确定了我今后的研究方向。软件室的研究经历,也对我也有很大的影响。我第一次了解到如此众多的研究方向和那么多活跃的研究思想,使我大开眼界。软件室工程化的项目管理方法,也使我学到了很多项目管理方面的技巧。北京大学计算语言学研究所与计算所完全是另外一种管理风格,那里每个人都有充分的自由,俞老师的管理方式是无形的,但也是相当有效的。另外,在北大我也见识了很多非计算机领域出身的青年才俊,与他们的接触让我受益匪浅。而我后来所在的数字化研究室又是另外一种管理风格,这些都是我一生受用不尽的财富。
我在计算所这十几年,得到了很多“贵人”的帮助,对此我怀着深深的感恩之情。
从我到二室读研究生,到新计算所成立,二室解散为止,张祥老师一直是二室的主任。张老师对我的工作和生活一直非常关心,对我坚持机器翻译研究这件事,他尽他的能力给我了最大的帮助,特别是早期没有任何资助的情况下,如果没有他的支持和帮助,我是不可能在这条路上走下来的。对此我一直怀有深深的感激。
俞士汶老师是我的博士导师,从我硕士毕业开始决定开展机器翻译研究开始,我就一直跟俞老师保持密切的合作关系,一直到我2004年博士毕业为止。俞老师在事业上给了我极大的帮助,特别是我在北大攻读博士学位这几年,除了在学习和工作中帮助我以外,俞老师还经常给我一些机会,让我出席一些重要的学术场合,使我在这个学术圈子里开始有了一定的影响。另外,俞老师对人的热情、对工作的一丝不苟、对名利的淡薄,都让我非常敬佩,也对我自己为人处事的方式产生了重要影响。对俞老师的感激之情,我将永远铭记在心。
白硕和程学旗是我在软件室期间的两任室主任。我在软件室工作期间,是他们给我提供了一个稳定的工作环境。虽然我的研究工作一直没有很好地溶入软件室的主流研究方向,但他们对我的研究工作一直都非常宽容,而且也在人力和经费方面给我了很多的帮助。我近几年来取得的成绩,其实相当大一部分基础都是在软件室工作的这几年打下的。对他们的帮助我也要表示衷心的感谢。
我特别要感谢李锦涛老师、钱跃良老师和林守勋老师。他们是我在数字化室期间的几位主要领导。我这几年做出的主要成绩,都是在他们的直接领导下取得的。他们给我了最大的空间,使我多年以来形成的积累得到了充分的发挥。这里的工作氛围特别好,大家相处得非常融洽。在这里,我们组成了一个非常好的工作团队,大家各司其责,互相帮助,优势互补,让人感觉非常愉快。我希望这种良好的工作氛围能在今后一直保持下去。
当然我最应该感谢的还是李国杰所长。他的几次帮助,对我的工作都起到了决定性的作用。对李所长的知遇之恩,我的感激之情是难以用言语表达的。
我在计算所这十几年,亲眼目睹计算所经历了一个由衰弱到复苏到重新辉煌的过程。我自己的经历也跟计算所一样,跌宕起伏。我衷心预祝计算所能够在新的时期再创辉煌,而我们这些计算所人也能够与计算所一道,在人生的道路上取得更大的成就。
后记
本来这篇稿子没打算写这么多,不过下起笔来才发现可以写的事情实在不少。有些事情隔的时间长了,都快要淡忘了,正好趁这个机会回忆整理一下,也是很不错的。我这个人记性向来不好,丢东西、不认人、忘记人的名字是常有的事。这篇稿子成稿仓促,里面涉及的人和事情,虽然我都尽量经过核实,但仍难免有错误,有些重要的事情也许有遗漏。如有遗漏和差错,责任完全由我自己承担,也希望读者批评指正。
祈威、于天波、钱跃良老师、王斌、俞士汶老师、詹卫东、常宝宝在本文写作过程中给我提供了很多的帮助,他们帮我指出了文中一些不太准确甚至失实的地方。钱老师对我在文章中的一些表述提出了中肯的建议。詹卫东对我的文章结构提出了很好的修改建议。在此一并表示感谢。
订阅:
博文 (Atom)