必读网 - 人生必读的书

TXT下载此书 | 书籍信息


(双击鼠标开启屏幕滚动,鼠标上下控制速度) 返回首页
选择背景色:
浏览字体:[ ]  
字体颜色: 双击鼠标滚屏: (1最慢,10最快)

微软亚洲研究院-微软的梦工场

_5 林宙辰(现代)
面包会有的,一切都会有的
我和嘉平再次讨论了以前试验的经验和教训,决定仍然选用切片面包。过去的一个月里,我们也没闲着,继续在各个超市搜索,已经找到了一家切片面包,孔洞尺寸都比较适合,也很均匀。现在的关键是如何防止变形。嘉平开始设计了保湿的方案。在面包下垫上了毛巾。毛巾的另一端浸在水里。通过虹吸来保持水分。可惜,我们很快发现面包本身的虹吸不够。面包的上表面还是干了,经过一夜,还是会变形。看来我们没有别的选择,只有反其道行之,尝试事先减少切片面包的水分并尽量保持切片形状了。我们试了几种办法,让面包失水,但是效果都不太好。
一天晚上,我忽然想起一个朋友曾经告诉我她用微波炉制作干花,决定用微波炉试试。第一次试验以后,发现效果不错,于是再接再厉。终于,在一袋切片面包壮烈牺牲之后,在一个晚上我找到了最好的生产工艺:将面包放于平板上(面包加热会变软),两边衬上餐巾纸。放入微波炉,中火每次一分钟。取出换餐巾纸,保证水分能尽快吸掉。重复四到五次后,就可以得到干的但是不变形的面包片。
于是,连续几个晚上,大家都能看到我小心的手捧编了号的面包片,在厨房的微波炉旁忙着“烹饪”。为了防止加工或候选的面包片被人吃了,我在厨房里一直盯着,直到过程完成,把面包片送到实验室里才离开。这样还不放心,我在每片的旁边写上:“试验样品,请勿食用”,防止拍摄数据的人饿了吃了他们。不过,大概是因为我们之前的废品早已经让大家吃腻了,结果根本没人碰这些面包一下!大家开玩笑说,看来我们的面包片和微软的软件一样,要到3.0版才能成功。
转眼几周过去,我们赶在Deadline之前完成了所有的工作,提交了论文。值得庆贺的是,我们的一切努力得到了最好的回报,我们的论文成功的入选了2005年的SIGGRAPH。
干面包还是鲜面包,这是个问题。
那年八月,我和Steve Lin在SIGGRAPH上宣读了我们的这篇论文。论文宣读完后,大家对我们的工作都很感兴趣,几个人提了一些技术问题。最后,这个Session的Chair走到麦克风前,问道:“你们的工作很出色,但是我看到你们的渲染结果,那个面包看上去有些干,看着像是干的面包,你能解释一下为什么吗?是绘制或者建模的问题吗?”我听了,一边心里乐,一边佩服他的眼力。我走到台前,回答说:“你说的太对了,实际上,由于我们的数据捕捉需要十几个小时,所以,我们捕捉到的真的是一个干面包的数据”。场上的听众被我们的这一问一答逗乐了,大家不禁大笑,接着热烈鼓掌,感谢我们精彩的论文宣读。
(通过算法,计算机自动绘制出来的面包)
写在最后的几句话
上面的一个小故事,是我在SIGGRAPH 2005的一点经历。这点经历,也许能够让大家看到在我们每篇论文背后,我们所付出的不为人知的认真与努力。就在这样一次次SIGGRAPH的努力中,在学习、挫折与汗水中,我也在慢慢的成长。不知不觉中,我在微软研究院已经工作了快十个年头。回想起这十年,我觉得我是幸运的,因为在这里我圆了我做计算机图形研究的一个梦想。而且,我有幸结识了许多优秀的人、有趣的人,并和很多人成了好朋友。和他们一起并肩工作的日子,已成为了我过去最美好的回忆。而我们将来一起奋斗的日子,是令我期盼与兴奋的人生体验。
作者介绍:
童欣博士是微软亚洲研究院网络图形组研究项目负责人,研究兴趣主要为图形学算法,系统,表观造型等。他1999年从清华大学博士毕业,同年加入微软亚洲研究院。曾经是伪小资真愤青,现在为准中年宅男。
“木兰”妈妈 初敏(1)
2008年11月25日16:44
“木兰”是我加入微软后带领几位年轻同事研发出来的双语文语转换系统(text-to-speech,简称TTS)。她不仅能将中文、英文文稿流畅的朗读出来,还能很好的处理混杂着很多英文单词、短语和句子的文稿。在研究院成立五周年的庆祝活动中,木兰名列‘十大’成果之一。我常常引以为豪。木兰凝聚了我多年的心血,就像我的另一个孩子,在我的孕育、抚养下,从无到有,从小到大,逐步完善,改进。最终成功的‘嫁’到微软最新操作系统Vista中,并且由此孵化出微软唯一的一个TTS产品部门。以前,一个在总部产品部门的同事Scott Meredith,也是TTS的专家,在向别人介绍我的时候,总忘不了说一句“She is the mother of Mulan TTS system”。我总是欣然接受“木兰妈妈”这个称呼。
“木兰”是这样诞生的
我是2000年初加入研究院的,是研究院的第一位女性研究员,也是研究院第一个从事TTS研究的人。我带领的这个TTS小组在很长时间都是微软内部唯一的一个从事语音合成技术研发工作的团队。凭借着在中文语言文化上的优势,我们差不多花了一年左右时间专门从事中文语音合成的研究,做出了一个合成效果非常好的原型系统。之后的一、两年,我们把研究重点转移到了英语语音合成上面,也取得了相当好的效果。
接下来我们选择的方向就是解决中英文混读的问题。随着互联网的发展,中西方文化的交融,越来越多的中文文章中会杂糅有英文内容,可能是某产品的品牌型号,也可能是一首著名歌曲。遇到这样的文章,传统文语转换系统就挠头了。最典型的解决方案就是在后台架起两个系统,一个专门处理中文,一个专门处理英文。遇到中英文混杂的句子,就将中文部分分割出来送给中文系统,英文部分则送给英文系统,然后将两者的输出合并起来返回给用户。这样做的最大缺陷在于分开处理的两种语言缺乏统一的语调、语气,甚至连声音本身都差别很大。这样的结果听上去时断时续,极为不连贯。可懂度(能听懂)和自然度(听起来舒服)都比较差。我们当时花了很多精力去物色一个中英文都比较强的播音员,为我们的语音系统录音,这样就可以保证语音数据库中的双语声音是一致的。另外我们还将中英文的处理能力融合在一个系统中,有统一的韵律控制,这样生成的语句即便包含两种语言,也能有统一的语调和节律,就像一个能讲双语的人讲出来的话。这个双语语音合成系统在可懂度与自然度上都取得了较好的效果。我们将这个系统命名为木兰。木兰就是这样诞生的。
(TTS系统中的木兰形象)
之后的一段时间里,我们致力于不断提高木兰的声音质量,并从应用角度探索如何将语音合成技术方便人们的日常生活, 例如语音聊天室(一方输入文字,另一方听到声音)、动画配音(为孩子DIY动画故事)、个性化声音加工等等。在我们完成了一个又一个有趣的研究项目的过程中,木兰长大了,成熟了。
木兰“嫁”入Vista
在2003年之际,微软公司在着力开发新一代操作系统Vista,当时总部产品部门基本准备购买其他公司的一套现成的语音合成软件。在他们对木兰有所了解后,最终决定采用我们的技术成果。这对TTS研究团队无疑是一件欢欣鼓舞的事情,因为能把自己的研究成果转化到服务于用户的产品中是我们的梦想。可是,事情运作起来远没有想象的那么简单。所有的开发和单元测试工作都必须在北京做。而我们这个以研究为主的团队,写程序不是我们最擅长的能力,而且势必占用我们很多做研究的时间。但是,为了一个共同的目标——把自己的研究成果做进微软产品,我们团队的每一个人都非常投入地做这个项目。
刚开始,我们只有5个人,三个来自TTS组,两个来自技术转化组。大家分担着产品开发环节中的各个角色,PM、SDE、SEET ,每天都超负荷运转着。正巧,项目启动后不久,微软亚洲工程院宣布成立,它成立的使命是把研究院的最新技术孵化进产品中去,TTS项目也就成了工程院的第一批项目之一。
“木兰”妈妈 初敏(2)
2008年11月25日16:44
我们从总部争取到了更多的人员指标,TTS开发组逐渐扩大了,有了专职PM、Developer和Tester。当然,任务也更多了,不光要把TTS做进操作系统,还要做到所有需要TTS技术的产品中去。不光要做中文、英文,还要做西班牙语、日语、法语等二十多种语言。大概在2004年8月份左右,在工程院中,我们已经孵化出一支完整的TTS开发团队,而我们几个仍想致力于研究工作的人逐渐抽身,开始考虑下一步的研究方向。而那时候,为Vista做的工作已经完成了80%以上。
当我的木兰最终“嫁”了出去后,有段时间我产生了一种空落感,茫然若失。TTS作为一个产品化了的技术算是大功告成了,那么接下来应该怎么走,还能做些什么?在这些问题上我们的团队做了很多思考。在随后的两年中,我们主要在语音合成技术的应用化、个性化层面进行大胆的探索,通过把十余种较有代表性的地方方言运用到语音的表达中,试图使对话效果更富趣味性、拟人性和娱乐性。在这个创意的基础上,我们做出了一些原型系统,效果还很不错。这些工作都是木兰的延伸。
18年的缘份,妙不可言
回想起来,我与语音合成这个研究方向已经结缘十多年了。这缘分源自于硕士入学之初的一次选择。
当时我从西北工业大学保送到哈尔滨船舶工程学院读研究生,信号处理专业有两个方向供我们选择,图象处理和语音处理,当时图象处理很热,好几个同学想选,我就决定不凑热闹了,选了语音处理。后来发现这个方向还蛮有意思的,就开始投入其中。等两年后报考中科院声学所博士时,我依然申请了语音合成方向。就这样,我的硕士、博士论文工作奠定了我之后长达十多年的研究兴趣。
大家都说爱一行,干一行。从硕士阶段开始算起,到后来留在声学所工作、直到在微软亚洲研究院工作到2007年,我已经在这个领域奋战了近18个年头了。我一直觉得自己是个很专注的人,但是仍不敢想象这种执着竟坚持了这么久。
语音合成是一个交叉学科,既要懂得语音信号处理,还要掌握语言内部的音韵、语法等系统的知识,并且需要能将这些知识很好的融合到语音合成系统之中。此外,还需要了解心理学实验方法,通过各种实验来帮助我们更好地理解人的听觉特点,从而更好的满足用户的需求。正是因为它所要求的相关学科的知识面比较广,才吸引我投入了这么多时间在上面。
而研究院,也是从事这样专注研究的一个好地方,它为每个研究员提供了很好的平台与环境,还有做事情的自由,每个人有很大的自由决定想做什么,不做什么。而且,只要要求合理,研究院总是会保障你有足够的资源做自己的研究。我曾经很奢侈地拥有过一个专门的录音室,在那里,我们进行了各式各样的录音实验,这也是木兰会有很好的音质的一个重要保障。
期盼再做一次“妈妈”
到2007年的时候,我已在TTS领域耕耘了十多年了。虽然,颇有收获,但内心深处逐渐萌生去打探一下TTS之外的领域的念头。这时,我对大规模数据加工处理产生了兴趣,这其中麻省理工学院的Victor Zue教授给了我很大的启示。
有一次,他来研究院访问时时,对我们提过这样一个问题:如果将你在做研究中所使用的数据量,乘上一百或者一千倍,同样的问题还能用同样的方法来解决吗?
是呀,随着互联网技术的发展,我们可以接触、收集的数据量迅速增长,面对这样大规模增长的数据,我们能做什么呢?应该怎么做呢?如何对大规模数据进行挖掘、分析和再利用成为了一个极富挑战的研究难题,对我也产生了强烈的吸引力。于是,就在2007年,我做了一个重要决定,扩展一下自己的研究领域,从语音组转到了以数据为中心的计算组,开始了一段新的研究历程。
将来会怎样,我无法预期,但我充满信心的期待着下一个硕果累累的十年,希望自己能孕育出另一个木兰,再做一次妈妈。
作者介绍:
初敏,2000年3月加入微软亚洲研究院,从事语音分析与合成、韵律模型和文语转换等方面的研究,她主持研究的木兰中英文双语文语转换技术成功的应用于微软的新一代操作系统Vista之中。2007年开始,初敏致力于将各种机器学习和数据挖掘技术用于大规模数据的分布式计算。工作之余,她最大兴趣是游山玩水,希望有生之年能走遍祖国的山山水水和世界的角角落落。
TechFest:我们的技术节 谢幸(1)
2008年11月25日16:44
最近流行一个词叫做创意市集,其组织形式和普通市集基本相同,最大不同之处就在于“创意”。在这里,每个摊主都是设计者,摊位上的每件物品都是他们亲手设计制作的,独一无二,具有独特的创意与强烈的个人风格。他们来创意市集的目的不只是为推销个人的作品,更重要的是,这里是一个设计者之间、设计者与爱好者之间沟通的平台。一群志同道合者们在这里聚集,聊得兴高采烈,海阔天空。
其实,在Microsoft,也有这样一个“创意市集”,那就是一年一度的技术节!
你一定不会相信。
技术节,粗看上去,不过就是各自说说自己的工作成果,不过就是很多人聚集在一起,各自show自己的demo而已,有什么特别的呢?
我以前也是这么想的。这要从2002年2月说起。
半夜的电话
2002年2月的一天,北京,凌晨两三点。电话铃声突然响起,我从床上一跃而起,直觉告诉我,一定是演示出麻烦了。
其实,严格说起来,我并没有真正“参加”这次的技术节,我的任务是留守北京负责后方监控。这时的我来微软工作还不满一年,技术节,对我来说,不过是个模糊的概念。这次我们组的demo之一是把网络视频转换成适合手机屏幕显示的格式,虽然之前我们对其进行了严格调试,力求不出任何问题,可意外还是发生了。这也许就是所谓的墨菲定律 (Murphy’s Law),担心什么就有可能发生什么,不论平时准备的多好,你的技术总是会在给最多人演示的时候出问题。
整个演示需要多台服务器之间进行配合,用手机来播放最终的结果,代理服务器接收视频,对其进行分析、处理和转换,还有一台服务器专门负责发送视频流。由于用到的机器数量比较多,其中一部分还位于中国。在现场安装设置过程中,任何一个微小的错误都可能会导致整个demo不能工作。通过电话,我和远在美国的同事们一点点排查,一遍遍调试,最终保证了演示的顺利进行。
背下来的讲稿
2003年,西雅图。我终于有了与技术节亲密接触的机会。
由于这也是我第一次去美国,语言交流成了我们这些年轻员工最担心的问题。为了防止可能出现的尴尬场面,我用了一个笨方法,把演示的内容背下来。于是,我事先准备好一份详细的讲稿,并找来英文水平好的同事修改润色,每句话都经过仔细推敲。定稿后反复朗读,牢记于心。此外,我还花费很多时间精心设计了海报,虽然现在看来,它显得那么稚嫩朴素。直到现在,这张海报还悬挂在我的办公室墙上,记录着当年的历史。
准备好这些,我终于有足够的信心站在演示台前。虽然我来之前对技术节有过很多设想,可现场看到如此热闹的场景依然让我兴奋不已。来观看的都是公司各部门的同事,大家在会场中往来穿梭,自由选择感兴趣的展示,而每一个展示者也都乐于与大家分享自己的技术。
展示者在台前兴奋的说,观看者在周围投入的听,并不时提出疑问或新的想法。产品组的项目经理们也会到现场观看,并借机寻找是否有相关技术可供合作。两天的技术节里,我一直积极认真地做着每一次演示,虽然辛苦,却很兴奋。有很多观众被我们的展示所吸引,这也让初次参加的我很有成就感。
这次美国之行,我还见到了在微软总部工作的几个本科同学。因为大部分时间观众都很多,为了不打扰我,他们特意等在一旁,直到我做完演示才过来打招呼。他们夸赞我说,没想到你第一次来美国英文就这么好。我听了暗自得意,他们哪里知道我全部是背下来的呢。这次技术节之后,我已经不再需要提前背诵讲稿了,可是这段经历却让我一直记忆犹新。
在做完演示的空暇我会在会场四处走走,参观其他研究员的展台。我发现有很多研究员非常认真,甚至是一些资深研究员们也都一直坚守在展台前演示自己的项目,不管我何时经过,都看到他们有着饱满的热情,我可以感受到他们对研究的热爱,而这份热爱和年龄与职位都没有关系。他们身上所展现出的激情与创造力让我深受感染。
我心目中对技术节的看法也因此一点点地改变了。
TechFest:我们的技术节 谢幸(2)
2008年11月25日16:44
我见到了鲍尔默
鲍尔默,那个听说会在公司年会上骑马冲上台的CEO,我曾在公司的内部视频上看过他充满激情的演讲片段,但我从未想到有一天我能站在他的面前演示我的demo。
可技术节就是这样一个让人梦想成真的地方!
2006年3月2日,我激动而忐忑的等待在展台前。
鲍尔默在两三个人的陪同下来了。没有前呼后拥,和普通的观众并没有太大不同,他很随和的拉过一把椅子,坐在了我面前。
我要给鲍尔默做的演示是photo2search,其内容是用户用手机拍下照片,把照片上传到服务器并匹配与之最相似的图片,从而得到和照片拍摄内容相关的信息。举个实际中的例子来说吧,你用手机拍下路边某餐馆,系统将该照片和其他图片进行分析匹配后,便能够知道该餐馆的名字,还可以将餐馆的优惠活动,甚至当天特价菜品等信息发送到你的手机上。你只需摁了几下手指,便很方便的得到了想要的信息。
演示中,我输入预先准备的查询图片——这是一张天安门的照片,系统立即返回了数据库中所有和天安门相关的图片。鲍尔默很快便理解了这项技术的主要功能,非常兴奋的谈起了他的看法,包括潜在的商业用途,微软哪些产品中可以运用该技术等等。他敏锐的眼光和独到的观点让我非常佩服,也让我看到了这项技术的美好前景,增强了把研究转变为现实的信心。
这次技术节上,我还注意到一些有趣的细节。为了了解什么样的演示最受欢迎,组织者在每个展台前放上了一台刷卡机,你如果对某项技术感兴趣,就在该刷卡机上刷下自己的门卡,以此作为最后的人数统计,并且会在技术节结束后把你看过的所有演示信息通过email给你。另外,会场内还装备了一台大屏幕,实时显示着每个演示的刷卡数。
于是,一个有意思的场景出现了,研究员们休息时便三三两两的端着咖啡,到这里来看自己的排名情况。也因此出现了排名之争,继而衍生出各种各样提高排名的方法。比如,有人会费尽心思将自己的展区布置成小型电影院的模样,还有人准备了小礼品以“贿赂”参观者。我们一边学习别人布置展台的经验一边也想了很多方法,租了大屏幕显示器,并请专业设计师设计了精美的海报,这一切都是为了吸引更多的眼球。努力终归没有白费,第二年,也就是2007年,在所有来自中国的演示项目中,我们拿到了刷卡量第一!
上CNN了
技术节的第一天叫做Public Day,即“公开日”。这是面对媒体的宣传活动,并会邀请一些学校的教授和其他公司的高层前来参加。公司会从参加技术节的所有Demo中挑选出一些参加Public Day上的公开演示。
2007年,我的项目被选中参加Public Day。这对我来说是更大的考验,意味着不能出任何的差错,意味着将要面对记者的采访,当然也意味着会有更多的人关注我们的项目。
今年的演示延续了上一年的工作,即用手机拍摄照片来进行搜索,但这次不仅可以支持更大规模的数据库,返回的结果也有了很大改进。在这次演示里,我们使用了百万量级的图片数据,基本上可以覆盖一个城市的大部分区域。虽然数据规模更大了,但是系统的查询时间并没有增加,基本上在几秒内就可以得到结果,在手机使用中这已经是可以接受的性能。性能提高的主要原因是我们使用了分布式的系统来处理查询,极大地提高了系统的可扩展性。
(谢幸在2007年微软技术节上向观众做Photo2Search演示)
Public Day那天,CNN、BBC、Seattle Times (《西雅图时报》)、路透社等各大媒体都派出了记者参加,也能看到来自中国的记者,如《计算机世界》、《互联网周刊》等等。通常记者的采访是这样的:一人负责拍摄,另一个人手持话筒,边看演示边提问题。整个采访过程时间并不长,这就需要我必须在很短的时间内,既让他们看懂演示的技术,又要把其中的关键点讲述得简洁清楚。就这样,记者走了一拨又来一拨,一天下来,我已经记不清楚我接待了多少位记者、做了多少遍演示。
第二天,我刚打开邮箱就发现同学给我发的Email,“你上CNN了!”我很惊讶,连忙打开CNN的网页,赫然发现我做演示的照片出现在当日科技版的头条新闻里,标题是“TechFest Explores Future Technologies”。新闻里这样写到:“Lost in Seattle with nothing but a camera phone? Just snap a picture of a nearby building, send off the photo to a database and soon you'll get back a map and information about where you are. (在西雅图走失了?什么都没有,随身只剩下一个可拍照的手机?没关系,只要拍下一张周围建筑物的照片,把它传到数据库,一回你就能得到你所在地的地图和信息了)” 我的经理马维英看后开玩笑的对我说,很多人千方百计想上CNN还上不了呢。随后,沈向洋院长也写信来打趣我说“你看起来很帅!”技术节一结束,我立即将这些报道转发给为了这个演示一起努力工作的同事和学生,让他们和我一起分享这份喜悦。
2008年3月,西雅图春寒料峭,我和我的同事们又一次来到了技术节,又一次拿到了中国参演项目中的点击量冠军。
我们是一群科学顽童
现在再回头说说,为什么说技术节就好像是一个全公司的创意市集呢?
细细比较起来,两者还是有诸多相似之处的。每个参加技术节的研究员们就好像市集上的摊主,每个展位就是他们的“摊位”;市集上的摊主们出售的是自己的看家宝贝,研究员们展出的是自己引以为豪的技术;正如摊主们的主要目的不是为卖出商品一样,研究员们参加技术节也不只是为了做秀或扩大知名度,促使他们来到这里的动力主要是源于对技术本身的热爱与激情。正是由于这种热爱与激情,使得这里没有年龄的差异,没有级别的高低,这里只有一群热衷于科学的顽童,每一次的脑力激荡中总会闪现灵感的火花。
费曼说,科学是很好玩的游戏。这句话改变了很多人对科学的刻板态度。同样的,技术节也改变了我做研究的态度,研究也应该是很好玩的游戏,只有对事物保持好奇、怀疑、钻研、动手实验的态度,只有保持一颗具有创造力与激情的心灵,只有把自己的技术看作犹如自己孩子般的热爱,才能在做研究中享受创造的乐趣,才有可能体会到成功的兴奋与喜悦。
每一次的技术节,我都被这种气氛感染着,也在这个环境里成长着。从第一张朴素到不起眼的自画海报,到现在的借助专业设计;从第一次的通篇背诵讲稿,到现在的交流自如侃侃而谈;从刚开始站在展台上的紧张不安,到现在面对记者时的成熟老练……是一年又一年的技术节造就并见证了这一切。
作者介绍:
谢幸,江西南昌人,15岁离家,求学于中国科大少年班。自认既非英雄,亦非神童,然勤能补拙,并幸得良师。24岁博士毕业,加盟微软亚洲研究院,于互联网搜索组任研究员,发表论文数十篇。忙里偷闲间,尤喜阅读与收集,平日里流连方寸,神游书海,乐此不疲。偶能偷得几日浮生,寄情山水,实为平生快事也。
微软对联背后的故事 周明(1)
2008年11月25日16:44
微软对联系统第二版在2008年春节之前10天终于上线了。我非常高兴地看到经过自然语言祖和创新工程组的同事们半年多的努力,网站以一个崭新的界面加上一个水平更高的对联系统 带给用户更加美好的体验。我非常喜欢创新工程组同事邹放设计的漂亮的界面,有两个大红灯笼,灯笼下面垂挂着两行对联:
新年纳余庆,嘉节号长春
据说这是中国最早的一幅对联,是五代的后蜀的国王孟昶写的。从那时候起,对联就逐渐开始流行了,成为中国文化的最典型的代表。为了配合上线,在微软亚洲研究院的博客上,蒋龙在公共关系组的同事葛瑜的帮助下,投放了一篇“看计算机‘舞文弄墨’”的博客 。
虽然我们并没有做任何商业宣传,但是上线当日就创造了单日独立访问人数5万人次、每日页面浏览量达50万的“票房纪录”。许多人发帖,呼吁大家使用这个新奇的软件。在百度搜索一下“微软对联”,一下子就达到93万的记录。这对于一个研究项目来讲,似乎是一个奇迹。
用户通过微软对联系统,似乎在进行一次穿越中国文化的发现之旅,找寻中国文化渗透到每一个汉字,每一个词,甚至每一个笔画上面的千年沉淀。又似乎在跟电脑的默契配合,体现互联网时代每一台计算机背后的骨子里的一点点的创新、少许的幽默和对时弊的愤世嫉俗。
我无聊的时候,总是爱到网上去看看有没有什么有趣的评语。这就像看着自己的孩子一天天地长大。下面摘录两则我看到的比较有意思的评论。
评论一:
“微软研究院的这套对联机真的是很好很强大,那天是在大旗网外链的一个论坛上看到的,帖子很热,人气很旺,从上到下认真的看完每个对联之后,对微软的这套对联系统那真是佩服的五体投地。
咱们可以先看看饱受好评的几个对联:上联:毛林周刘华邓江胡,下联:秦汉晋隋唐宋元清,横批:震古烁今;上联:物价并不高,下联:市场已经远,横批:对酒当歌。
评论二:
我也从来没有在家门贴春联的习惯,但是老爸喜爱书法艺术,也略有小成,用着这套好玩的微软对联机,心想:赶着春节将至,不如编个春联让老爸写写,也蛮热闹喜庆的,即成上联:木土杜家喜迎吉祥鼠,对联机略做运算即成下联:车干轩户春接富贵人,横批:骏业顺风。”
我常常在思考,这个微软对联系统究竟有什么值得总结的地方。看到微软对联,再看到这么多网上的评论,我的脑海里就总象在放电影一样,把这个历程里出现的人物和有趣的事情一幕一幕地闪现出来。值此微软研究院十周年之际,我想确实应该趁现在记忆还清晰的时候,把这段历史好好地总结一下,以便让十年、二十年之后的人们还能够看到曾经发生的有趣的故事。
誓与李敖比高低
微软对联这个项目,跟前任院长沈向洋大有渊源。此事说来有点话长了。
2004年底的时候,沈向洋把我叫去,说搞个自动对联吧。所谓自动对联,就是说人出上联,由计算机对出下联。他之前跟几个人都聊过这个设想,所有的人都告诉他别想了,不可能做出来。他失望,不甘心,反复提起来。“反正你是院长,你说做就做吧。”大家说。有点像傣族的泼水节,泼的都是冷水。
他跟我说你能做也得做,不能做也得做。我说我肯定做,而且肯定能做出来。不过,要允许下联有多个候选,还要允许人机交互。另外,我需要时间。我当时可说是穷困潦倒,自然语言组不足10人,有两名骨干即将转到微软别的部门去。还有几个项目同时在做技术转移,包括搜索引擎的拼写检查。大家还要赶写很多文章。我就从清华大学中文系招了一位同学,他的名字是马艳军,听上去像一个女孩的名字,人也是彬彬有礼的。
我设计了一个简单的模型,把对联的生成过程看作是一个翻译的过程。给定一个上联,根据字的对应和词的对应,生成很多选字和候选词,得到一个从左到右相互关联的词图,然后根据一个动态规划算法,求一个最好的下联出来。一个好的下联其评价标准也很简单,第一就是它跟上联的对应程度,一般用词和词的对应概率来代表,第二就是生成对联的语言模型,就是衡量它像不像一个对联。马艳军在我的指导下,在两个多月的时间里,根据这个思路,就做了一个简单的对联生成系统出来。我于是向沈向洋报告进展,这也是沈向洋第一次审核这个项目。
微软对联背后的故事 周明(2)
2008年11月25日16:44
在他办公室里,我给他看了这个简单的系统输出的几个结果。他看过之后,很惊讶地说,看来我们有戏呀,继续努力吧!马艳军三个月之后,导师要求他回去,我只好去找语音组帮忙提供新的学生。我曾经在语音组干过半年的经理,有点人缘。周健来很慷慨地介绍了吴法洲同学,他是清华软件学院的研究生,曾经帮助健来做了手机上的输入法。吴法洲同学来了之后不久,我又请我的实习生蒋龙同学加入。后来沈向洋让他在北航的预定将来要读他的博士的两位实验学院的大四同学加入这个研究小组。女孩子叫陶李天,男孩子叫苏昊。我当时又请了北京大学中文系的两位同学整理从网络上挖掘的对联数据以及生成的对联词典。
后来是每隔三个月,沈向洋就会安排一次评审。每一次都鼓励说,大有进步。每一次都强调“要多挖数据呀,没有数据不行啊”。为了加强数据挖掘,他特别请王坚派人帮助加强数据挖掘。王坚就派了陈伟柱来,我就请伟柱帮助从网络上挖掘更多的对联数据。伟柱果真了不起,在两个月的时间里,很快挖掘了大批的对联数据。有了更多的数据,系统的性能得到了大幅度的提升。然后大家就讨论能不能把横批做出来。蒋龙同学很聪明,在一次开会的时候提出了一个方案——通过语义距离计算来和已有的上联、下联的句子最佳匹配的横批。苏昊根据这个方案实现了横批模块。我们于是就盼望着下一次给沈向洋做汇报的时候给他一个惊喜。当时的院长助理李世鹏安排了时间。在五楼的一个会议室里面,我给沈向洋和李世鹏演示了最新的对联系统。沈向洋出了一个上联:“李敖对联强”,电脑沉思了一毫秒,对出来“鲁迅绝句多”。沈向洋说:“不错,那么横批呢”。这时候我很忐忑,鬼才知道会对出来个爷爷还是奶奶。瞬间结果出来了,系统对出来的横批是“语妙天下”。沈向洋一拍桌子,说“绝了!”。
那个时候,沈向洋满脑子都是要找李敖比一比。我一直不敢。他说不要怕,输了就输了,反正是电脑,也没有什么丢脸的。如果要是赢了,我们就赚大了。我说要是限定时间,比如1秒钟之内,我们准赢。要是不限定时间,比如任意由李敖想,那我们准输。当时,沈向洋甚至设想了比赛过程:请几个评委出题,让计算机和李敖比一比;搞一个图灵测试,把电脑的结果和人的结果,让用户评价。如果用户评价电脑结果好的次数比较多,则电脑就算赢了。那一年,沈向洋和洪小文、金俊等人到台湾访问的时候,特意跟李敖一起吃饭,席间提起此事。李敖说,“我才不比,赢了没有什么了不起,要是输了我一世的英名就完了。”李敖的聪明可见一斑。这件事也就只好挂起。
西湖边上“秀”对联
我们的对联非常荣幸地在三次二十一世纪计算大会上由我进行了演示。第一次2005年在杭州,第二次2006年在清华大学,第三次2007年在南京。据我所知,在所有的二十一世纪计算大会上,微软对联系统是唯一一个三次演示的系统。确实令人骄傲。微软对联还被认为是基于数据和基于实施(deployment driven research)的研究战略的经典。我这里再给大家讲一讲在演示时发生的故事。
第一次是2005年,在杭州大会堂。我们住在西湖苏堤春晓旁边的香格里拉饭店。沈向洋要求我演示微软对联。我心里非常焦急,因为当时的系统非常脆弱,基本上还不敢随便让别人试,只能演示自己试验过的例子。可是到了杭州,一定要有几个跟杭州有关的例子。我吃过晚饭,就心思沉重地在西湖边上漫步。大有唐代诗人贾岛月下苦思 “僧敲月下门”和”僧推月下门”孰好的架势。我不经意地抬头看到路边暮色里苏堤春晓的指示牌,知道到了苏堤春晓。于是马上想到苏堤春晓,配上个“秀”字不正好是一个上联吗?马上回旅馆打开系统试验,还真是对出来个“平湖秋月明、平湖秋月新、平湖秋月寒、平湖秋月香,还有曲院风荷清、曲院风荷新、曲院风荷美之类的。接着又发现了几个另外跟西湖有关的不错的例子。第二天在沈向洋的讲座里,他邀请我上台演示微软对联。这是该系统第一次在公众面前演示 。第二天,很多报纸就相继报道了微软对联系统,其中杭州《东方早报》的记者刘文钊的报道写得绕有趣味 。
微软对联背后的故事 周明(3)
2008年11月25日16:44
我印象最深的是在2007年南京举行的二十一世纪的计算大会。这是微软对联第三次在这样的大会上演示。沈向洋在演讲时,要求我演示微软对联 。为了入乡随俗,当时在做对联演示的时候,我想到了朱自清的一篇著名的散文《桨声灯影里的秦淮河》,于是我将“秦淮河桨声灯影”用做上联,系统马上生成了很多各具风格的下联,在随意选择了其中一条“松花江水色月光”作为其下联。接着,我们进一步选择了横批,于是一个“万民同庆”非常贴切地印入眼帘。
接着,我给系统出了一个“千江有水千江月”的上联,这里面有两个字是重复的,一个“千”,一个“江”,对联系统则巧妙地对出了“万里无云万里星”作为下联,然后以一句“纵横天下”作为横批结束。
其实这个对联是我在此之前送给沈向洋的。因为他当时即将奉调回微软总部担任全球搜索技术开发的副总裁。他是南京人,对南京怀有深厚的家乡情谊。这次他在南京的二十一世纪计算大会上的演讲,流露出回到家乡又要别离家乡的感觉,所以,我于是特意演示了这个对联,表达对他的深深的尊敬和祝福。
此外,在这次大会上,我们还展示了两个比较绝的对联:
对联一:
上联:凤凰台上凤凰游(选自李白诗)
下联:蝴蝶泉边蝴蝶梦
横批:麟趾呈祥
对联二:
上联:此木为柴山山出(拆字联)
下联:白水做泉日日昌
横批:景色怡人
快乐对联快乐心
微软对联完成之后,给我和很多人带来了许多快乐。我们在聚会时候胡诌一些上联,看看产生什么下联和横批,因此产生很多热烈的探讨。有的同事离开北京到其他地方去生活,我也会生成一个对联赠送给他。有人调侃说,这是世界上最便宜的却又是最有纪念意义的礼物了。
来自总部的印度朋友Raman Chandra,他参与马可波罗计划到微软亚洲研究院访问五个月。他的太太Koty Jane后来也来到北京。他们伉俪在北京度过了难忘的时光。
在此期间,我和我太太还有女儿星美曾经在一起有过交流,吃饭,聊天,很投机。在他们离开中国之际,我感觉恋恋不舍,于是就用微软对联把他和他太太的名字输入,对出一个横批,作为离别礼物赠送给他们。
上联:陈睿蒙
下联:简凯迪
横批:展翼鹏程
我还记得张亚勤曾欲送即将退休的微软雷德蒙研究院前院长凌大任一个礼物。他的秘书要求我写几句古雅的中文以表心意,供亚勤参考。我绞尽脑汁,写不出来。于是求助微软对联。我把凌大任名字嵌入到上联里,输入 “纵横意气凌大任”, 结果系统对出“上下春风倚青云”,横批是“锦绣江山”。
在微软深圳移动部门和微软MSN部门同事的支持下,我们的系统很快实现了手机版本。通过短信或者彩信方式可以获得下联和横批。2006年末,经理们到香港参加中文大学举行的第一届微软亚洲研究院联合实验室会议。回来之后在珠海短暂停留两日继续讨论公司业务。我因为要去探望我在深圳工作的哥哥,就又逗留了一日。李世鹏因为要去台湾做一个特邀报告,因此也逗留了数日。晚上的时候,我和李世鹏在蛇口的一家酒吧喝啤酒。酒吧在一个轮船上,坐在船上可看到一轮明月高高地挂在天际。水光澹澹,微风习习。远处的香港如同海市蜃楼一般漂浮在海月之间。李世鹏诗兴大发。出上联:远看香港朦胧灯景。他把上联发用手机发短信给对联的服务器,马上收到了系统回复的一个短信:“看看您的大作吧,上联:远看香港朦胧灯景,下联:遥望神州寂寞月光。还满意吧,回复88看更多内容。回复8+文字,重新出上联。”世鹏又出上联:“春花秋月何时了”。系统回复 “暮雨朝云去不还”。这样一唱一和,不觉夜色已深了。真有“不觉碧山暮,秋云暗几重”之境。
电脑对联成功决
我经常在想,为什么这么一个听起来有点天方夜谭的项目居然获得了如此大的成功?到底有哪些地方值得今后的工作借鉴呢?
首先我认为,得益于沈向洋的匠心独运的选题。在此之前,重庆大学陈廷槐教授曾经给我写过一封信,寻求在计算机自动生成诗词曲联领域的合作。当时为此事跟沈向洋请教过。沈向洋认为这个题目太难了,最关键的一点就是生成的诗词的意境和表达形式可能是发散的。很难说什么是对的,什么不对的,因此不能有效地评价,而能够进行自动评价是关系到系统可持续发展的关键。我们认为对联需要首先输入上联,然后输出下联。两者已经要么相对,要么相合。在形式上,上联、下联要符合平仄,字数、词数要相当,而且上下联文字使用的规律要一致。譬如上联出现了叠字则下联一定要出现叠字,上联出现了叠音则下联一定要出现叠音。因此在形式上也有衡量的标准。而且,从机器学习的角度来讲,输入是上联和输出则是下联,结构非常清晰,便于学习。
我们也讨论了项目的重要性。对联的研究,看似小题目,却牵扯大问题。首先,依靠互联网和人工智能技术帮助振兴和普及数千年中华文化,于国于民都是大事。在学术研究上,因为涉及到自然语言处理,人工智能、机器翻译的重要算法的研究,对推动以上学科领域的发展也大有价值。
第二,我认为本项目的成功,得益于微软亚洲研究院的创新文化。微软研究院历来鼓励创新,不怕失败。因此,这样一个大胆的项目得到了沈向洋院长和继任的洪小文院长的大力支持,
第三,这个项目涉及到自然语言处理、网络挖掘、网络服务、界面设计。需要上述种种领域的人才通力配合。微软研究院各个方面的人才济济,而且大家配合默契。良好的组织管理和团队精神,保证了这个项目的有条不紊地顺利进行。同时这个系统也是许多来自不同学校的实习同学一起努力的结果。在此,特别向参加本项目的所有同事和同学表示诚挚的谢意。
许多人问我下一步的计划。我在想,利用微软对联技术,应该可以试一试绝句和律诗的自动生成了。但愿能够做出来,把中华文明发扬光大。
作者介绍:
周明,从2001年至今,担任微软亚洲研究院自然语言处理组主任。从事自然语言处理有23年历史。在1999年加入微软之前,曾任清华大学计算机系自然语言处理研究组的负责人。他是中国第一个中英机器翻译系统CEMT-1的研制者,在日本连续10年 (1998-2008) 市占率超60%的中—日、日—中机器翻译产品 “J-Beijing”的发明人。他领导的自然语言组在中文分词、跨语言检索,机器翻译等国际竞争中均获得第一名的佳绩。目前他担任《计算语言学》、《机器翻译》、《亚洲自然语言信息处理》等国际学术期刊的编委,还曾任世界计算语言学会议、世界人工智能大会的领域主席,亚洲信息检索大会程序委员会主席。他的信念是第一要做对的事,第二要用简单的方法,第三要做认真和执着的人。他业余时间喜欢读书,欣赏唐诗、宋词,当然还有对联。
找到属于自己的关键词 刘铁岩(1)
2008年11月25日16:44
在研究院工作快5年了,没想到电子工程出身的我会和SIGIR ,这一信息检索领域的顶级会议,结下如此的不解之缘。
从2004年到2008年,自己在信息检索这个方向上走过的道路,也是自己在微软亚洲研究院不断成长的过程:从熟悉信息检索这个领域,量身定做地投出第一篇SIGIR论文,到提高研究能力和写作技巧,到确定自己的主攻方向,到为引领一个研究学派而努力。
期间的收获和感悟颇多,写下来愿与大家分享。
第一年:“发表第一篇SIGIR论文”
我毕业于清华大学电子工程系,博士论文工作是关于视频信号处理的,如视频切割、关键帧抽取、视频总结等。2003年加入微软亚洲研究院,2004年转入互联网搜索与挖掘组,从此开始了对信息检索这一全新领域的探索。
这次转行没有想象的那么艰难,因为微软亚洲研究院在信息检索领域已经有了很多的成果,在SIGIR上也发表了不少论文。有这么好的一个平台,可以通过和同事们的交流很快进入状态。
但是过程并不轻松,毕竟信息检索领域几十年的历史沉淀了很多的知识和经验,需要一点点去体会和掌握。为了更快更好地掌握这些知识,我和我的实习生们一起,在组内开展了一系列的讲座,包括《现代信息检索》、《最优化方法》、《统计机器学习》等等。经验证明,这种方法十分有效:自己看书学习是一种感觉,要能够在众人面前把东西透彻地讲出来,是另外一种境界。虽然不得不花很多的功夫,但是这个过程为我和我的实习生日后在信息检索领域的研究打下了坚实的理论基础。
在提高基础知识的同时,我们也开始通过阅读论文,以及和同事的交流来了解SIGIR这个会议。当时的愿望很朴素:能够尽快地像其他同事一样,在SIGIR这个顶级学术会议上有论文发表。通过阅读论文,我逐渐发现SIGIR其实是个很传统,很重视经验结果的会议。SIGIR的论文通常都有很翔实的实验结果,因为只有这样才能验证所提出的算法在海量信息处理中是否有上佳的表现。作为进入这个领域的第一个尝试,我决定“投其所好”,为SIGIR“量身定做”一篇有关经验比较的论文。
当时研究院正在参加TREC 比赛。这个比赛中有一个任务叫做Topic Distillation,其目的是找到与所查询主题最相关的子网站入口,也就是说即便有的时候子页面比父页面更加相关,我们还是希望返回父页面。为了解决这个问题,我们提出把网页里的关键词按照网站结构向父页面进行传播。经过实验验证,这个方法非常有效。于是我就想,是不是还有其他类似的做法呢?除了关键词以外,我们是否可以把网页的相关性得分(relevance score)进行传播?除了沿着网站结构以外,我们是否还可以沿着超级链接结构进行传播?有了这个想法以后,我们对以往的相关文献进行了调研,发现确实有人做过把相关性得分沿着超级链接进行传播的尝试。这就启发我对以上提及的各种传播方式进行系统的对比研究。于是我把所有相关的方法进行列举、分类,并对其进行了大量的实验比较,并最终得到了很多有意思的结果。我按照自己总结的SIGIR的“范式文本”,把这些比较结果写成了一篇论文,提交给了SIGIR 2005。最终这篇文章被录用了。虽然有些幸运的成分,但是不管怎么样,通过“模仿”,我的SIGIR之旅正式启航了。
第二年:“掌握扩大战果的本领”
发表第一篇文章固然重要,但是如何排除幸运的因素,真正具有持续发表SIGIR论文的实力更加重要。这方面,微软亚洲研究院的国际化平台给了我很大的帮助。每年,研究院都会吸引大量国外的知名学者来进行访问交流,我正是借助这样的机会认识了杨益銘教授。
杨益銘教授是美国卡耐基梅隆大学的教授,是文本分类领域的专家。我有幸在她访问研究院期间和她合作了的一篇论文。当我把初稿写出来让她修改的时候,她来来回回和我讨论了5遍“引言”怎么写。其实她完全可以直接帮我把这一章改好,所花的力气要少很多。但是杨老师耐心地给我提意见,让我自己一点一点修改。这个过程使我意识到有了好的技术,还要清晰准确地表达出来,恰到好处地突出自己的贡献。这对我日后的论文写作以及给学生改论文都有很大的帮助。至今仍然十分羡慕杨老师的境界:“写论文其实是一件很享受的事情,写起来象清泉流水一样,禁不住要把那么好的研究成果和别人分享”。
找到属于自己的关键词 刘铁岩(2)
2008年11月25日16:44
和杨老师合作在SIGKDD Explorations 上发表了一篇关于大规模文本分类的论文之后,我又开始了独立准备下一年度SIGIR论文的阶段。不过,这次明显感觉与以往不同了:不再是为了量身定做一篇论文而找题目做,而是围绕着自己正在做的研究题目写论文。
这次我准备的两篇文章一篇讲的是基于随机补的网络图排序,另外一篇则是关于文档检索的新算法。它们都不是有关经验比较的论文,也没有像第一年那样按照SIGIR的“范式文本”来写,但是这两篇文章也都被SIGIR 2006录用了。
经过这个过程,我感觉自己真的入门了:至少知道什么样的工作是SIGIR这个领域真正认可的工作,也知道如何写出具有自己风格的论文来。
第三年:“找到属于自己的关键词”
入行两年发表了3篇SIGIR论文,其实并不是一件容易的事情,因为这个会议竞争非常激烈,每年全球范围内只收录几十篇文章,而且无疑来自美国的论文占了绝大多数。也因此,我慢慢被一些外面的学者认可,也接触到了更多的同行朋友。
一次开会的时候,和几个同行聚在一次聊天,各自介绍自己的研究方向。到我表达的时候,发现只能用“信息检索”这样的大词来形容,因为自己做过的3篇SIGIR论文相关性并不大,很难找到更贴切的描述。一个朋友说:你要有自己的关键词,比如美国伊利诺斯大学香槟分校的翟老师的关键词就是语言模型,卡内基梅隆的杨老师的关键词就是文本分类,你的关键词是什么?
这个问题给了我很大的触动。仔细想想,确实知名学者多半都有他们自己的成名之作,有很集中的研究方向。而我目前的状态似乎还是有点为了发论文而发论文,没有真正地去规划属于自己的研究方向。如果继续这样下去,可能接下来的几年里我还会发表更多的SIGIR论文,但是当再次被别人问及同样的问题时,我仍然无法避免这种尴尬。所以,我决定要集中火力,做有影响力的,可以作为自己关键词的研究方向。
我和我的经理就此进行了一次长谈。谈话中,一方面他向我强调了微软亚洲研究院开放的研究氛围,对我表示了极大的支持;另一方面,和我分享了“less is more”的道理,并和我一起分析和确定了主攻的研究方向。考虑到我的数学基础比较扎实,对机器学习和优化理论比较熟悉,同时考虑到不论对信息检索领域还是对微软公司的搜索引擎而言,排序(ranking)都是一个核心的问题,我们最终把研究的重点放在了排序学习(learning to rank)上。
在此基础上,我对自己和实习生的研究方向做了较大的调整:大家的研究方向都围绕着排序学习展开,比如:排序学习的损失函数研究,基于多平面的排序学习方法,排序学习中的特征选择问题,基于排序学习的序列融合等等。我们也再接再厉在SIGIR 2007上发表了3篇论文。这三篇论文由于都是关于排序学习的,被安排在了同一个分会上宣讲。这个分会上总共只有4篇文章,因此我们的表现受到了很大的关注。我也从此有了自己的关键词:排序学习。
会后,我被邀请成为SIGIR 2008资深程序委员会的成员,以及国际期刊《信息检索》的编委,从一个信息检索领域的的参与者转变成了的组织者。
第四年:“为引领一个学派而努力”
微软公司有一种内部导师制度,鼓励资深员工作为年轻员工的导师,对他们的成长进行帮助和指导。我非常幸运,通过经理的引荐,Rakesh Agrawal ,这个数据挖掘领域最成功的学者,在2007年底成为了我的导师。我还清晰地记得在我和Rakesh的面谈中,他对研究的看法给了我很大的震撼。比如,“写文章不是为了当下被会议收录,而是为了要推动这个学术方向的发展,要形成一定的学派,至少在10年之内都产生深远的影响”;再比如,“人们总是忘记你的好论文,而铭记着你不好的论文,声望要用10年去积累但是可以毁于一旦,因此要非常严肃对待自己的每一篇论文,确保质量”。
和Rakesh的交流让我认识到有个关键词还远远不够,这个关键词需要代表着我自己主导的学派。带着这种想法,我在经理的帮助下对研究课题进行了重新的审视,并且对研究过程进行了更好的质量控制。我和我的合作者们现在正在为了引领“列表级别的排序学习 (listwise approach to learning to rank)”这一属于我们自己的学派而努力着。
可喜的是,我们在这个方向上已经取得了阶段性的成绩。比如,我们在SIGIR 2008上又发表了3篇相关的论文,还在ICML 上发表了2篇关于“列表级别的排序学习”的理论文章,讨论了列别级别排序学习的统计一致性和泛化性能。除了发表论文以外,我们还通过在SIGIR上组织Workshop,发布Benchmark数据集,在SIGIR和 WWW等顶级会议上做专题讲座的方式推广“列表级别的排序学习”。
我们的研究成果受到了越来越多的关注,然而我们知道,前方要走的路还很长。不过,在微软亚洲研究院这个平台上,我们有信心可以越走越远,推动排序学习领域的进步,也为整个SIGIR的发展做出自己的贡献。
作者介绍:
刘铁岩,2003年获得清华大学博士学位,同年加入微软亚洲研究院,现任信息检索与挖掘组主管研究员。他的研究兴趣包括排序学习的理论,算法和系统。他已在国际期刊和会议上发表了近70篇学术论文,拥有近40项专利或申请。他被国际期刊“视觉通信和图像表达”授予2004~2006年度最高引用论文奖,被SIGIR2008授予最佳学生论文奖。他是数十个国际会议的程序委员会成员及国际期刊编委。他的研究风格是结合信息检索的应用需求,提出全新的研究方向,并给出有效的解决方案和严谨的理论分析。
大侠是怎样练成的 周昆(1)
2008年11月25日16:44
转眼之间,我已经在MSRA(微软亚洲研究院)工作了将近六年,回想六年来的研究经历,感触很多。就和练习武功一样,我从一个学徒,到略通精义的武林中人,再到凭借一技所长叱咤一方的的大侠,我在研究院度过了不平凡的六年。
一.2003年:“打哪指哪”与“指哪打哪”
2002年我加入微软亚洲研究院,刚开始是跟着资深研究员做项目。当时我的老板郭百宁提出了一个很有挑战性的想法:能否用纹理合成技术模拟出豹子皮这样一类的纹理。于是,在实现他这个想法的过程中,我学会了“打哪指哪”的研究方法。
这个项目的研究过程异常艰苦。在最开始的几个月里,我们尝试了很多种方法,可无论如何,我们做出来的豹子皮都像是假的。直到项目结束期限前的一个月,百宁总结了我们能做出来的最好结果,发现尽管我们不能做出豹子皮这种纹理,但是已经能做出一大类有累进变化的纹理。于是,围绕着这个思路,我们对已经取得的算法和结果进行了整理。最后论文被SIGGRAPH录用,这也是我的第一篇SIGGRAPH论文。
我在学校里受过的科研训练一般是首先有一个好的想法,接着进行实现,通过写程序和做实验来验证想法是否可行,这种方式可以总结为“指哪打哪”法,就是说目标指向哪里,就打向哪里。可是,我在研究院的第一个项目确教会了另外一种不同的研究门路——“打哪指哪”。比如说百宁给我提供的想法就像一个目标,而需要我想办法把这个目标击中。可是,由于我的知识和研究实力等方面的限制或者本身这个想法就不是很成熟,极有可能这个目标在当时的情况下是实现不了的。可是,就在这个做不出来的过程中,你有可能做出一些科研环节中的副产品来。虽然,之前是沿着一条研究主路一直在前进,但是却会产生很多的分叉与分支出来,逐渐偏离了原来的研究方向。当走了一段时间之后,会恍然发现其实本来就不应该走原来的那条路,要走的就是现在这条走出来的“弯路”。当时的假定目标是A,后来竟做出了一个B出来,而当我们要总结科研成果,撰写科研论文时,我们会总结说其实我们真正要做目标的是B,这就是所谓的“打哪指哪”,J。
在科研过程中,往往会遇到很多没有设想到、但很有意思的现象,便导致了很多意外的新发现。因此,当一项科研成果出来的时候,你可以相信在其背后可能隐藏着另外一个不为人所知的故事。当然你所能看到的几乎所有的科研论文在讲述研究历程时都是运用“指哪打哪”法的,但是它这个结论的发现过程很有可能是“打哪指哪”出来的——没有打到目标A,却把目标B做出来了。
“打哪指哪”法对于刚刚进入研究一两年,脑海中只是有些模糊想法但是又未必做不出来的研究人员比较适用。2003年我们没有做出豹子皮,只是在马身上生成了豹皮的斑点图案,看上去像是披着豹皮的马。两年之后,在2005年的SIGGRAPH上我们真正做到了“指哪打哪”,用纹理映射的方法生成了豹子。
二.2004年:科研成果的产品转换
2004年我发明了一个叫做Iso-charts的技术,主要是借助机器学习的方法对三维网格模型进行自动分片,并且生成纹理坐标。网格参数化是计算机图形学一个非常基础的功能,在游戏和电影产业都被广泛适用。在这一年的工作中,我认识到做研究不只需发论文来展示自己的科研成果,其实还需要看重这项技术的实际价值。被工业界所应用和承认,或许能带来更大的成就感。
通过技术转化组的胡志鹏工程师的辛勤工作,我们成功地在DirectX的Code Base里贡献了三万行代码,使得这项技术成为DirectX中任意网格参数化工具UVAtlas。现在做贴图的程序员和游戏开发者都会用到UVAtlas这个工具,而且这项技术还用在了微软自行研发的Halo 3游戏引擎里。这就是企业研究院区别于其他科研机构的地方,在企业研究院我们不仅可以发表高水平的顶级论文使得科研成果得到学术界的充分认可,而且还可以使自己的科技成果进行产品转化,被成千上万的用户所使用从而体现其更广泛和深远的价值和影响。
大侠是怎样练成的 周昆(2)
2008年11月25日16:44
非常有意思是,这个项目起源于一个SIGGRAPH项目,我们的投稿不幸被拒了,可是万幸的是它转化进了微软的产品中,而且获得了研究院2005年的最佳技术成果转换奖。同时,这篇论文也是我第一次与微软总部的研究员合作完成的论文。
三.2005年:渐入佳境
2005年对我来说是丰收的一年,我投了三篇SIGGRAPH论文都被录用了,而且三篇都是以第一作者的身份发表的。在同一年里面以第一作者的身份发表三篇论文,这在SIGGRAPH历史上是前所未有的。这一年的丰收标志着我在SIGGRAPH上成熟,也非常庆幸在这一年找到了可以真正命中SIGGRAPH的感觉和信心。当在这种感觉的指引下做出来的三篇论文得到业界同行认可的时候,即充分证明了自己也可以与他们一样跻身世界领先的行列。
总的来说这一年的收获主要体现在两个方面,首先是2003年金钱豹纹路的创想终于在这一年找到了完美的解决。另一方面就是自己的研究视野更加开阔了,从几何和纹理伸延到了绘制,对图形学本身有了更为深入的探索和了解。我一直觉得计算机图形学是个相对较窄的学科,如果连这个较窄的学科都不能做到比较透彻的理解的话,我担心自己今后能到达的研究高度会非常有限的。我希望自己能在研究的深度和广度上并重。
我不停地扩展自己的研究范围,尝试去学习更多的东西,试图在多个方向上寻找可以解决的问题。在某个方向上的研究功力体现在发现问题的能力,如果连问题都不知道的话,解决问题就无从谈起。可是有太多的文献和太多的方向,使得发现问题变得相当困难。即使当你找到一些问题之后,有些问题可能是十几年/几十年没有解决的问题。那么,就需要创新性地在当前的范围里找到一个可解的问题,这其中的难度可能并不比找问题难。
四.2006年:从运动员到教练员
这个阶段我主要从一名运动员转换到同时带学生的教练员,如何培养学生做研究成了我的一个新课题。在研究院工作是幸运的,有很多非常优秀有潜力的学生跟我一起做研究,比如任重、孙鑫、施晓晗、侯启明等。 我在培养学生方面也经历了一个比较有意思的发展过程:
阶段 我 学生
阶段一: 全包培养 从Idea, 方法,实验,论文起草都由我来完成 主要从事一些编程的工作
阶段二: 轻轻放手 提出Idea,论文起草由我完成 让学生去寻找一些解决方法,从事编程工作
阶段三: 大胆放手 只提出Idea 鼓励学生自己寻找方法,尝试撰写论文,从事编程工作
阶段四: 理想状态 只提出大的研究方向 从Idea, 方法,实验,论文起草都由学生完成,从事编程工作
计算机图形学研究对实习生的要求相对比较严格,因为它的门槛很高,除了要有idea,还需要把这个idea实现到极致,做出最漂亮的结果。我对学生的要求非常严厉,但是从另一方面而言,学生出成果也很快很出色。我有责任让这些学生学到知识,提高能力,做出成绩,这样才对得起把这些学生交给我的老师和家长。对学生要求严格的一个简单方法就是以身作则,如果我对自己要求更严,比学生还用功,那么这种工作态度就会激励身边的学生一起热情地投入到项目中。
返回书籍页