必读网 - 人生必读的书

TXT下载此书 | 书籍信息


(双击鼠标开启屏幕滚动,鼠标上下控制速度) 返回首页
选择背景色:
浏览字体:[ ]  
字体颜色: 双击鼠标滚屏: (1最慢,10最快)

微软亚洲研究院-微软的梦工场

_6 林宙辰(现代)
就像Harry和百宁常说的,我们从全国各地选拔上来的学生就像是一些优秀的的运动员苗子。我们要培养的是能参与国际竞争的奥林匹克团队。进入研究院的学生都是很好的苗子,但是真的要把这些好的苗子培养成世界一流运动员,需要一个艰巨和漫长的过程。在这个过程中,教练员必须要保持耐心。
五.2007年:科学研究中的猜想
研究院是一个智商密度很高的地方,不仅有许多聪明员工和实习生在这里工作,而且有很多世界一流的科学家络绎不绝地到这里交流访问,形成了一个非常宽松而活跃的学术交流平台。在与这些海内外知名学者的交流中,我总能在研究方法和思路上深受启发。比如每次和前任院长沈向洋的交谈都让我受益匪浅。他会经常鼓励我思考一些视觉和图形学交叉领域的研究问题。与另外一位理论组的访问学者滕尚华 教授的交流也极大地帮助我开拓了研究思路。
大侠是怎样练成的 周昆(3)
2008年11月25日16:44
2005年尚华第一次来研究院访问的时候,我们一起做了一个网格形变的项目,尚华对这个项目中涉及到一些非线性优化算法的稳定性和收敛性做出了重要贡献。我们合作的论文也发表在SIGGRAPH 2006上。此后,每次尚华来研究院我们都会在一起聊天。尽管尚华是一个计算机理论科学家,他对应用领域的很多研究问题却有着浓厚的兴趣。有一次在闲聊时候,他提到在做研究的过程中直觉很重要,有的时候对一些没有把握的方向需要做出猜想(conjecture)。他还提到了自己的一个非常好的研究工作就是这样做出来的。当时理论界已经证明单纯形法 在最坏情况下具有指数复杂度。按照常理这样一个高复杂度的算法应当很难被应用,可是单纯形法却在工业界被广泛应用。尚华和他的合作者就猜想既然实践已经证明了单纯形法的实用性,那么一定存在着某种限定条件使得单纯形法的复杂度远远低于指数复杂度。沿着这一思路,他们最终证明了在大量的工业应用中单纯形法只是多项式复杂度。这一研究工作在理论界和工业界都产生了深刻的影响,相对于传统的最坏情况分析(worst case analysis),这一工作开创了光滑分析(smoothed analysis)。他们的论文也在2008年获得了计算机理论学界享有盛名的G?del奖。
当时,我在做一个关于动态散射媒体/烟雾的实时绘制项目,但是却碰到很多困难。烟雾的数据表达是一个包含有很多高频特性的体数据,我们尝试用一些数学模型去近似表达烟雾的数据,然后在这个数学模型上进行有效绘制计算。但是根据这些数学模型得到的绘制效果却不让人满意,因为原始数据在数学函数的逼近下会丢失掉一些细节,所以烟雾绘制出来的效果总是太过光滑,真实感颇为欠缺。另一方面,直接采用烟雾的原始数据会极大地降低绘制效率并且增加存储开销。这时候我们的项目基本上陷入了停顿。而尚华的关于科研猜想的一番谈话如醍醐灌顶般激发了我的灵感——是不是可以尝试不要丢掉残差(原始数据减去函数逼近而剩下的即为残差),在绘制过程中通过某种途径把残差补偿进去(当时完全不知道该如何补偿)。有了这个思路,我马上找任重一起讨论如何利用残差。很快我们就解决了残差数据的有效存储和绘制算法,实验结果表明这个猜想非常完美地把富有真实感的细节表现出来了。这项研究成果也发表在2008年的SIGGRAPH上。就是这样,一个利用早期被我们丢弃的残差数据的算法成为了这整个项目中最核心的部分,而大胆猜想为我们在穷途末路中找到了重新开路的明灯。
六.2008年: 从计算机图形学到计算机科学
如果说过去5年的目标是对计算机图形学有一个透彻的了解,那么从2008年开始我把研究范畴扩展到计算机科学中的一些更基础的领域:数据结构和编程语言。
近年来多核技术(包括多核CPU和GPU)的发展已经成为趋势,如何在多核环境下进行有效的算法设计和程序开发成为整个计算机科学的一个热点研究方向。这对我们图形学研究人员来说也是一个难得的机遇,因为没有人比我们更了解GPU,J。2007年年初我们就计划在 GPU上开发一些基本数据结构的构建算法,并在暑假的时候确定了要设计一个全新的GPU编程语言的目标。到目前为止我们已经开发了包括八叉树,KD树在内的多个基本数据结构,这些数据结构被应用到图形学和视觉等多个领域。
另外我的学生侯启明和我设计开发的BSGP编程语言使得程序员可以象编写串行C语言程序一样在GPU上进行并行程序设计,大大提高了GPU程序的可读性、可写性和可维护性,使得编程效率提高2~3倍。而我们的BSGP编译器生成的代码可以达到与现有的编程语言相似甚至更高的运行性能。这项成果已经被2008年的SIGGRAPH大会录用。目前我们正在努力把这个新的编程语言产品化。我梦想着有一天我们在数据结构和编程语言上的这些研究工作和成果会为并行计算时代的计算机科学奠定基础。
科学研究是一个没有止境的、艰苦的历程,如果你能保持耐心,并学会享受这一历程,你就能达到自己想象不到的高度。我希望这篇短文中提到一些的科研经历能对刚开始进行计算机图形学研究工作的新手们有所帮助。请你们相信,也许目前你觉得要成为一名计算机图形学专家是一件遥不可及的事情,但是只要你不断努力,你一定会被学术界所认可;也许你还会觉得成为计算机科学家是遥不可及的,那么只要你坚持,你同样可以证明自己可以成为一流的计算机科学家。就象Harry经常和我们说的,the sky is the only limit(天空是唯一的局限,引申为永无止境)!
作者介绍:
周昆,2002年从浙江大学计算机学院获得工学博士学位,同年加入微软亚洲研究院,历任副研究员、研究员和项目负责人。2008年受聘教育部长江学者特聘教授,回到浙江大学计算机学院工作。在微软工作6年期间曾在国际计算机图形学大会ACM SIGGRAPH上发表17篇论文,其中多项技术被应用在Windows图形系统DirectX,XBOX游戏Halo 3,以及三维电影特技制作软件中。
歌曲大搜索之哼哼也可以 芦烈(1)
2008年11月25日16:44
通过这几年的工作,我逐渐从一个对研究所知甚少的学生逐渐成长为一个在音频分析领域略有成绩的研究员。哼唱搜索,作为其中我曾经负责的一个项目,也从起初的一个练手项目发展成为技术转让项目。从中其实也能看到我成长的点点滴滴。
先打点儿基础吧!
研究院的光环是夺目的。她总是与世界级专家、领先的学术成果、自由的学术氛围等令人向往的词联系在一起。当我得知自己被研究院录取的时候,心中的兴奋之情可想而知(后来我还得知我是研究院录取的第一批硕士生之一,而且还很有可能是第一个,而以前研究院是只招收博士生的)。我其实并没有对此抱有很高的希望。因为我在大学时期拥有的专业知识(我是电路与系统专业)和一些基本的项目经验,与计算机科学的学术研究相比,还真有些隔行如隔山的感觉。
当我怀着兴奋的心情来到位于北京中关村的希格玛大厦,见到了众多世界级专家和当代佼佼的青年学者及同事时,我更加意识到自己其实对研究几乎一无所知。就连一些基本的算法,像模式识别和机器学习,也没有系统地学过。我知道自己必须恶补更多的知识,积累更多的经验。这对我来说既是挑战更是巨大的机会,因为我即将步入令人兴奋的多媒体研究的殿堂。
当时我们组叫媒体计算组,主要从事多媒体计算,包括图像、视频、及音频的内容分析和检索。我们组的学术领头人是张宏江博士,多媒体分析的先驱之一。由于我还具有一些信号处理和语音处理的背景,而且对音频信号颇感兴趣,于是音频和音乐内容分析及检索便成为我的主要研究方向。
在另一个研究员江灏的工作基础上,我开展了音频分类分割的工作。其主要目标是将一个音频片断(比如影片中的音轨),按照其内容分为语音、音乐、背景声音等等。这是音频分析的第一步。这个项目帮助我很快地熟悉了机器学习和模式识别的算法。
好玩的哼唱搜索
经过一段时间的学习和工作,我逐渐熟悉了研究的方法论。哼唱搜索(query-by-humming)便成为我第一个独立研究项目。在传统的搜索引擎中,大家都习惯于用文本或关键字去搜索歌曲,比如用歌手或者歌名。但是在很多情况下,你有可能忘记了或者根本不知道一首歌的歌手和歌名。那么,还有什么办法把那首歌找出来呢?哼唱搜索便提供了另外一种搜索方式:哼一段旋律,通过旋律匹配把歌找出来。
这个项目的起因其实就是张宏江的一个问话:“能不能简单哼一下就把一首歌给找出来?”“ 挺好玩。”当时第一个感觉就是这个问题很好玩。仔细一想,其实这也是一个现实的问题。比如说我自己(不少人也是)经常记不清歌名,但还能哼两句主旋律。如果我们真能有一个哼唱搜歌的系统,说不定真可能派上用场。同时,这还是一个独立、完整的系统,设计开发这样一个系统对我也是一个有益的锻炼。于是,我和一个实习生由红开始了这个项目。
我们首先翻阅了资料,发现哼唱搜索其实在1995年的ACM多媒体大会上就由Asif Ghias博士(康奈尔大学)等提出并给出了一个解决方法。以后又有些研究员陆续提出了一些改进方法。但是,我们发现以前的方法还是有不少的局限性。比如,旋律本来是一个音符序列,包括每个音符的音高和时长;但在很多方法中,旋律被简化为只包含反映下一个音符相对于上个音符上升、持平、下降的字符串。有些方法为了加快搜索速度,要求只能哼唱歌曲的起始部分。还有些则为了避免哼唱节奏的影响,要求用户使用一个节拍器。这都限制了这些方法的可应用性。我们觉得里面还有许多方面可以提高。
我们把系统分成了三个部分:数据库处理(从音乐中提取旋律),哼唱处理(从哼唱中提取旋律)和旋律匹配。其中的关键问题是旋律表征、旋律提取、和旋律匹配算法。鉴于以前对旋律表征过于简化,除了以前使用的上升下降等量化数据,我们还保持了旋律中每个音符的音高和时长作为更精确的表征。在旋律匹配过程中,我们采用了两步法以加快搜索速度:先用简化旋律作一初选,然后再用音高和时长,通过音高匹配模型和节奏匹配模型,来更精确地寻找相似的音乐。
歌曲大搜索之哼哼也可以 芦烈(2)
2008年11月25日16:44
经过半年时间的努力,我们终于完成了算法,建立了一个演示系统。算法在测试集上的性能也挺不错:在搜索结果中,前五位内能找到正确歌曲的比率(hit rate)达到了80%。然而,虽然算法取得了不错的结果,回想起来,还是有不少地方可以提高。比如我们所用的开发集及测试集都比较小,这样可能并不能完全反映算法的性能。我们还发现我们在分析哼唱数据将其转化为旋律时,使用了不少启发式规则,一些参数的设置过于局限于开发集而失去了通用性,使得这个系统对某些人工作很好,但对另一些人却不好。而且,要成为一个真正能为大众使用的产品,我们还缺少一个关键触发点:一个好的应用场景。对于最重要的一个应用场景——网络音乐的搜索,哼唱搜索还无法胜任。这是因为目前的算法对 mp3等音频数据还无法有效处理来提取旋律,我们使用的数据库主要基于MIDI 数据。但是不管怎样,这是一个完全从零开始的项目,我在整个过程中,从查阅资料、设计模块、设计算法,到编写代码、数据收集、算法评价及相应改进,都得到了不少的锻炼,对研究方法也更有心得了。
由于其他项目的开展,哼唱搜索暂时告一段落。我想,其实它也是在等待一个更好的机会。
忽现转机
几年后(2006夏)的某一天,搜索技术中心(STC)的开发项目主管谢育涛突然跟我联系,说他正好看到张贴在研究院中有关哼唱搜索的海报,要跟我讨论一下将其用在手机搜索上的可行性。谢育涛主要负责的是手机搜索,那时他正在跟位于深圳的Windows Live Mobile China (WLMC) 做图铃搜索,也就是提供高效算法来搜索手机图片和手机铃声。除了传统的文本搜索之外,他们还在寻求一些与其他搜索产品不同的新功能。哼唱搜索可能是一个好的选择。
为了寻求哼唱搜索手机铃声的可行性,我们同相关的同事进行了多次讨论。最后,我们觉得哼唱搜索和手机铃声下载将是一个完美的结合:
首先,手机铃声的下载是一个相当大的市场。有资料显示2005年全球手机铃声业务达到令人惊讶的50亿美元。
第二,手机作为一个便携式手提设备,用键盘输入文本并不太方便。但是,声音对手机来说却是一个非常自然的输入方式,因为手机本身便是用来做声音交流的。哼唱是声音的一种。
第三,手机铃声通常有多个版本以便用于不同的手机型号,而MIDI版本的手机铃声是最基本的。这样,只要将MIDI同其他格式关联起来,旋律提取便不再是个问题。
第四,通过手机下载手机铃声是个一步式的解决方案。不再需要通过电脑等中介系统。
同时,我们也发现在这个应用场景下,直接使用我们以前的方法效果并不理想。新的问题带来了新的挑战:
第一,在以前系统中,哼唱是通过麦克风录制的,质量比较好。在现在的应用场景下,我们需要用手机录制。同时,我们必须还要考虑到录制时引入的背景噪声(用户可能在大街上使用这个系统),还有由于无线传输而可能引起的信号畸变。
第二,我们将要面对一个大的多的数据库(通常手机铃声库可能包含1-10万首铃声)。这就要求我们更进一步的提高搜索精度和速度。利用一切可以使用的信息,优化旋律模型和节奏模型。同时需要建立一个更大的开发集和测试集,来优化参数选择和性能评价。
当时,由于媒体计算组的重组,我加入了语音组继续从事音频分析和检索的工作。语音组研究项目负责人Frank Seide和语音组带头人宋謌平博士也非常支持这个项目。于是我们就立即开始了分工合作,来搭建一个端到端(end-to-end)的系统原型。其中,我和一个实习生翁锐浩主要负责哼唱搜索算法的改进,其他几位同事,包括STC的欧佳凡和WLMC的王晓兵,负责搭建搜索平台。
重拾哼唱搜索
晓兵和佳凡的工作卓有成效,他们同中国移动的高阳公司合作,很快就搭建了一个系统平台,并申请了一个临时声讯服务号码(当时是125905988)。通过这个平台,我们就可以有效地采集真实数据。用户可以通过手机直接拨打服务号码,系统会记录下每一条哼唱记录。我记得当时我们有一部手机专门用来做数据采集。我们邀请了很多同事和实习生,把手机交给他们,让他们留下自己“美妙”的哼哼声。对于哼唱环境、哼唱方式、哼唱歌曲,我们都没有加以限制,以期得到符合用户习惯的最真实的数据。通过这个系统,我们得到了大量的数据。
有了真实的数据,我们就着手算法的改进了。算法的改进主要在两方面:一是哼唱的旋律提取,我们考虑了不同的背景噪声和信号畸变,提出了更精确的方法来检测和分割每一个音符;二是匹配模型的改进,我们使用了隐马尔科夫模型 来作旋律匹配,明确考虑了哼唱和数据库音乐之间的音符对齐问题,将它更有效地集成到了改进的旋律模型、节奏模型和匹配时的容错模型中。我们还提出了一个更加系统化的匹配过程。
经过几个月的努力,我们终于开发出了一个更高性能的算法。测试显示,第一位歌曲的正确率 (top 1 accuracy) 达到了82%,在前五位中找到的比率更是接近90%。我们也搭建了一个在线服务原型:你可以使用你的手机,拨打一个服务号码,根据提示音哼唱一段旋律,你就能得到你要找的手机铃声。这也是业界第一个哼唱搜索手机铃声的系统。为了能在中国市场运作,我们还将此技术转让给了位于上海的美斯恩有限公司。
我们还把这个技术展示在微软一年一度的技术节上(TechFest)上, 得到了非常不错的反响。比尔·盖茨也过来看了我们的演示。我也第一次获得了与比尔·盖茨面对面的机会。后来有在微软总部雷德蒙工作的同事对我说:“你的演示很成功啊,很多同事回来后还在讨论呢。”
结束语
哼唱搜索,只是我所经历的众多项目中的一个。之所以讲讲它的故事,不仅是因为它是我第一个独立项目,而且它也让我懂得,做一个项目,不只是仅仅做一个实验室算法,而是要系统地综合地考虑其应用场景甚至商业模型,考虑真实使用环境并使用大数量多样化的真实数据。做到这一点,才有可能使你的技术应用于现实生活中,才有机会让用户感受到科技改变生活。
我想,无论工业界的研究员,还是高等院校里的学生,都可以从这个角度去重新审视一下手中的问题和解决方案。
作者介绍:
芦烈,2000年加入微软亚洲研究院,现为语音组研究员。主要研究方向是机器学习,音频、音乐的内容分析和检索。他在国际一流期刊和会议上发表过50多篇论文,拥有近20项专利;曾多次在国际会议上担任技术委员会成员。他于2000年获上海交通大学电路与系统专业硕士学位,现兼于荷兰代尔夫特理工大学攻读博士学位。他寥有所好,溺于技术而疏于艺术。好音乐而做音乐分析,却常因没有音乐细胞而心有戚戚。 希望有朝一日自己的研究成果可被广泛应用。
研究院“&”的故事 陈刚(1)
2008年11月25日16:44
创新工程组(Innovation Engineering Group,简称IEG)是研究院中一个非常特殊的非研究性质的组,它负责很多研究组的研究原型和技术转移工作。许多研究院技术背后都有这个组的贡献。由于IEG支持的研究组很多,开玩笑说,就 “研究方向”的数量而言,她可以稳坐研究院第一。
出乎一般人意料的是,这个主要由软件开发工程师而非研究员组成的开发组竟然是研究院成立的第一个组,现在也是10岁了。令人骄傲的是,2003年,从它分化出一支并壮大成立了微软亚洲工程院(ATC)。2005年,搜索技术中心(STC) 的成立也是从这个组开始的。再后来,开发组合并用户体验 (User Experience) 后形成了现在的创新工程组(IEG)。我们组现有二十多人,有老有少,有中国人也有外国人,而且终于有了女性开发工程师,作为一个微软内部的软件开发团队,这确实比较少见。和初创时期纯粹年轻男生的组织构成相比,现在更“平衡”了。
自从2000年进入微软亚洲研究院做开发,不经意间我已在这个组工作了8年,猛然发现自己竟成了组龄最长的组员。作为一个仍很年轻的“老人”,我很乐意把一些经历在研究院10年之际与大家分享。
进入微软研究院
至今我还记得进入微软时两次决定的面试片段。1999年末我面临毕业求职,一日接到微软中国研究院到知春路希格玛的面试通知。西装穿戴整齐到了希格玛五层,我就径直被带到一个屋子里面被很多人围着问话,而这些人没有一个穿西装的,倒是有穿拖鞋的。问问题的人单刀直入、毫不含糊,印象中只记得往来之间人影恍惚、镜光耀眼(研究员们的戴眼镜的比例可不是一般的高)。我战战兢地演示着程序,一边祈祷千万别出岔子。刚刚提心吊胆介绍完,我听见背后“咚”的一声,转头看到一人倚墙坐倒,我心里一惊,那个人却开始打起了很响的呼噜。其余人等毫不惊讶,继续和我聊。通过面试后,我作为实习生帮视觉计算组(VC, Visual Computing)的论文做演示程序,加入了他们的第一场SIGGRAPH战斗。而那位坐倒睡过去的研究员就是徐迎庆博士,他的项目正是我进入微软的第一个任务。
SIGGRAPH 战斗告一段落后,到了2000年初我必须决定工作去向。正好研究院在大批招人,再次经过开发组5轮面试官轮番轰炸,没有遇到传说中方井盖圆井盖的问题就到了关底。Harry (沈向洋,当时他是视觉计算组负责人)面试了我。记得有两段话对我的未来影响巨大。Harry说:“想想在什么地方你做一件事可以影响全世界,让全世界的人都用你做的东西?在微软你可以有这样的影响力”。这个诱惑至今对我有吸引力。Harry接着问“你可以选择,做研究还是做开发”。得知做开发可以选择不同的项目和研究组的时候,我更愿意在多个项目间穿梭,更喜欢面对代码而不是论文。于是成为了当时微软中国研究院的开发组的一员,我的职位名称是RSDE(Research Software Development Engineer),当时组里有不到10个人。
我们是RSDE, R&D中的&
外企风格之一就是众多用让人听起来摸不着头脑的缩写,请让我来解释一下我们的职衔。微软程序员的职衔是SDE,即软件开发工程师 (Software Design Engineer或者Software Development Engineer) 。创新工程组的大多数组员的职衔是RSDE (Research Software Development Engineer) 即隶属研究部门的软件开发工程师 。这个多出来“R”意味着我们的任务一部分需要做SDE的事情,写代码编程序,另一部分是和研究员们并肩工作,把概念和想法实现为原型系统和算法,并进一步帮助把研究成果转化为高质量的微软产品代码,这就是所谓的技术转移(Tech Transfer)。技术转移是我们组的主要任务之一,所以 TTG (Tech Transfer Group) 即“技术转化组”是我们使用时间最长的组名之一,即使目前仍然是是创新工程组的主要部分。
还有一个有趣的说法描述我们的工作:研发工作一般叫做R&D,“研”指的是研究部门(R, Research),“发”指的是产品开发部门(D, Development),而RSDE的位置就恰恰在那个“&”中,是连接研究和开发的纽带。
研究院“&”的故事 陈刚(2)
2008年11月25日16:44
技术转移
每年都有不少研究技术从亚洲研究院的实验室进入到微软产品中,变成产品的某个功能(feature)。作为研究院的一员,我很骄傲的是,Windows XP、 Vista、 Office、Tablet PC (平板电脑)、Xbox、Windows Live、游戏、硬件等等微软产品中都有来自于北京海淀区知春路城铁边上的这个实验室的技术。其中研究员们的智慧是关键,其中创新工程组的RSDE们也是这些技术产品化的幕后英雄。很多年以前,人们把中关村叫成硅谷的时候,我眼中只是好多买电脑零配件的摊位,而现在的中关村才真正地有了一个IT技术的聚集地的模样。
技术转移是一个需要时间的过程,不是像同城速递那么快捷一个下午就到达目的地。很多大学的孵化中心就是一种类型的技术转移过程。这里说说微软研究院中一个典型的软件技术转移的过程:
1. 研究组选研究题目。这个题目可能是领域内长久的研究方向,希望可以得到某些突破,或者是来自与已有产品的问题。
2. 研究员深入分析问题,设计算法,构造原型系统,收集数据,选择算法,评估结果,不断迭代尝试。
3. 当原型系统显示有能力解决问题的时候,我们开始与相关产品部门接洽技术转移。研究部门有专人负责与产品组的信息沟通。同时我们也可以得到产品组对我们结果的反馈意见。
4. 当原型算法的质量到达相当不错的阶段,产品组看过后便有了更有明确的需求。RSDE开始和研究员成立一个临时的虚拟小组(virtual team,有别于平时的管理组)一起工作,进一步提升原型系统的设计和质量以达到产品组的要求,研究员、产品组的项目经理、开发工程师、测试工程师一起工作,最终把算法代码实现写入到产品组的代码中去。
5. 最终产品发布。到了这个时候,参与项目的人会得到一个石头或金属嵌玻璃的奖牌(Ship-it Award),上面写着“感谢xxx对xxxx产品做出的贡献——比尔·盖茨”。
这是一个相当明确的流程,而现实常常出乎意料,任何一步都不是那么简单,而是变数丛生、繁复无比。产品部门的要求来自与市场,通常期望值很高,可这时往往暴露了研究阶段成果的一个问题,那就是——研究成果和产品要求的差距。
不是所有的研究项目都会成功产品化,为了提高研究的效率,通常当一个算法解决了问题的主要方面就可以开始向产品部门推销了。当“买方”对算法结果基本认可并有意向集成之前,会提一系列的具体要求,希望算法可以达到产品标准。很典型的要求比如是否能够能否达到99%以上的正确率,融入产品已有架构的容易程度,算法复杂度、实现的速度、数据适应性、资源内存消耗、安全性、可靠性、等等。我们在这些方面有过不少坎坷。
例如我们做人脸卡通,第一步在是用户输入正面肖像照输入后自动的配准面部五官,然后再继续后续步骤。最初的的算法在亚洲人的照片上可以工作得很好,可是产品组要求算法必须在世界其他国家市场上要正常工作。这就带来了新的要求,必须考虑世界上其他人种的肤色、发色、眼睛鼻子大小。新的要求导致了数据和算法上的很大改动。
当一项技术是“基本可用的”,假设它已经达到80%的产品要求,而产品的真正要求是“非常好用”,可能意味着90-99%,产品组的众多要求累积在一起,这之间将近20%的距离往往就是发生量变到质变的那一段。这常常意味着算法要做相当的调整和适应,甚至结构需要大修改。RSDE的典型技术转移工作就在这20%的一段。这个象“&”一样拧吧的阶段,我们要和研究员开会,学习他们的东西,出差去总部和产品组面谈,或者每天大早起床赶时间与总部开跨16个小时时区的电话会议,与产品的开发测试工程师一起工作,共同努力让一项研究技术完美地实现用户需求。
研究是高风险的事情,能够变成真正产品的研究只是成功的极少数。很多项目就在这个阶段前不幸夭折了。长江后浪推前浪,死在沙滩上的前浪研究项目的数量相当可观。这个艰苦的过程,难的不光是技术,还有在长长的辛苦、烧掉无数脑细胞之后却要接受项目无果而终的现实。
研究院“&”的故事 陈刚(3)
2008年11月25日16:44
所以每当有一个技术转移项目顺利完成时我们都很兴奋。当我们收到一份产品组高级经理的感谢信,还有看到好久不见的同事从总部出差回来挺着腰围暴涨了一圈的肚子时,就会上前恭喜他,然后和他一起抱怨总部的中餐馆的菜真油,公司楼下的食堂Pizza吃得太多了,Ship-it Award奖牌的玻璃太难看了……
我们说研究院是帮助公司赚后天,甚至5年以后、10年以后的钱。从我们的经验看来,做技术转移,过程有长有短,3个月不算短,5年也不算长。这从另一方面验证了关于这个时间的说法所言非虚。如同任何一件事情的成功,必须努力也要有运气,是天时地利人和的结果。
技术转移过程也是一个人与人、机构与机构之间互动、互相支持和取得信任的过程。研究院成立之初做研究项目推广的时候,研究院对产品组的周期、市场定位、核心问题和希望、工作优先级还不太适应。相当多产品技术研究项目消耗了人力、时间却无法找到合适的敲门砖。随着每年逐步取得的成果转化成绩,一方面亚洲研究院渐渐得到了产品组的信任。同时研究院也逐步建立与产品部门保持同步的机制。从RSDE的角度来看,随着研究院能力和规模的扩展,产品组的“胃口”也渐渐提高了:问题的规模不断增长,难度加大,质量需求也越来越明确。产品组更容易采纳准备充分的研究成果:合理的功能设计,相当扎实的算法结果,同时核心算法还需要通过完备的测试。这新一阶段的期望对研究员们和RSDE们提出了更高的要求。迎难而上,我们没有其他选择,研究院里有一大拨视困难为乐趣的人。
说到这些人,有一个故事很有意思。研究员们和微软产品组的同事们是很不同的两类人。在一次研究院和产品组的同事都参加的微软内部培训中,大家做了一次性格分析。结果显示研究员中相当大比例喜欢思考、冒险、质疑权威、幻想、外向有创造力;而更倾向于喜欢动手,脚踏实地,有纪律,讲程序、保守、精确的人群中工程师们占据多数。这固然有着职责选择了人的原因,而后天的职业要求也进一步加强了双方的特点。其实两类人还有很多共同的东西:不满足于现状,追求卓越。
微软对联
为了让研究更上一层楼,从2007年起,创新工程组的项目中增加了一个新的重点,我们把这叫做“部署驱动的研究”(Deployment-driven Research),讲起来有些拗口,简言之就是帮助研究员们把研究项目直接做到Web上去。在搜索、Web 2.0应用越来越兴旺的时代,研究也要和最终用户直接接轨,可以接触到第一手的信息。
经过自然语言组和创新工程组的共同努力,微软对联2.0赶在2008春节前给大家带来了新春的祝福。在短短几天内,微软对联的访问量超出大家预料,国内海外的中国人都试用了这个极具中国特色的对联工具。而用户的热情参与,为我们后续的中文的自然语言研究提供了很有帮助的数据。
这里和大家分享有一些在对联发布之后有趣的发现:
1. 三天之内,天下皆知,通过社区的信息传播速度令人惊讶。本来对联是很低调的,我们本希望该系统慢慢被人所知,但是访问量的猛增和各大BBS上的热帖让它在三天之内成为了一个热点。
2. 海外华人高度热情。我们的记录显示来自海外的访问量不可小视。由于对联应用的特殊性,不大可能是大量的外国人使用。我们未曾预料能够为如此之多的海外中国人服务,这很让我们高兴。
3. 年节前后,流量升降。在春节和元宵节前,有更多人使用它。而进入长假后,流量陡降,大家都在走亲访友吧。
4. 有非常多的对联相当的有趣,而且很多和时事贴近。大众的创造力真是无穷啊。
对联项目大大鼓舞了我们继续这个方向的信心。可以乐观地预计,在未来研究院会有更多更好的研究项目为大家设计和使用。
回首八年,我深深庆幸在这个热火朝天的地方开始了我的职业生涯,能够与那么多聪慧、真诚、热情、执着的同事们共同奋斗。作为一个开发工程师,让我很兴奋的是我们一直在做真正“前沿”的东西。在研究院成立十年之际,我深刻感受到研究院仍然在最初的梦想道路上奔跑,而我会继续和研究院一起成为这梦想的一部分。
作者介绍:
陈刚,1993年进入北京科技大学计算机系,2000毕业获硕士学位,同年加入微软亚洲研究院从事研究技术到产品的转化开发工作。现任微软亚洲研究院创新工程中心开发经理,他的工作着重于研究成果到商业产品的转化,其中包括Internet应用、图形图像应用,研发基础系统,以及研究院软件工程优化。在业余时间,他非常喜欢爬山和摄影,而摄影这个爱好对他参与的研究项目也很有帮助。
“掌上”视频拉近你我的距离 李江(1)
2008年11月25日16:44
2004年6月,美国知名的学术杂志麻省理工学院《技术评论》在当月的封面赫然放上了“微软肖像”的巨幅图片,并且把微软亚洲研究院誉为“世界上最火的计算机实验室”。作为被编辑有幸挑选出来成为最能代表研究院创新成果的技术,“微软肖像”随着杂志的甫一付梓,越来越多地受到了全世界计算机学术界和工业界的关注。它也让更多的读者相信在科幻作品中虚构出来的那些移动视频通信技术终于可以在现实生活中看到端倪了。
(2004年6月,麻省理工学院《技术评论》以“掌上视频”为封面照片,用六页的篇幅全方位报道了微软亚洲研究院的历史和成果)
N多双眼睛的集合
如今,随着手机功能的日益强大,通过手机拍照或者录制一段视频已经屡见不鲜了,可是,通过手机进行实时视频通信却仍然没有普及。早在2001年,由微软亚洲研究院多媒体通信组研发出的“微软肖像”软件,就已经较为逼真地实现了双向交流的实时视频通信。这一技术不仅可以支持个人电脑、掌上电脑、手持电脑等设备,而且可以运行于局域网、拨号网络,甚至带宽为9.6千比特/秒的无线网络。特别值得一提的是,这项技术还具有自适应性。如果用户只有低带宽网络,微软肖像就会传送黑白视频;而如果用户拥有较高的宽带的话,则可以传送真彩色的视频。在低带宽时,相比传统的视频技术而言,肖像视频能够提供更清晰的轮廓、更流畅的运动,并且具有更短的延时以及更低的计算消耗。“微软肖像”是我在微软亚洲研究院参与过的第一个重要项目,也是持续时间最长的项目之一。
从2001年8月18日“微软肖像”第一个版本的诞生,我们组就把这个技术上传在微软研究院网站上供用户自由下载。令我们感到意外的是,虽然这还是比较稚嫩的第一个版本,但是用户对它的反响还是很不错的。因为随着掌上电脑在当时的问世,很多用户也很想在上面看看通话状态的对方是什么样子,而之前从来没有这样一种软件出现过,所以,有段时间,大概有几万用户下载试用了我们的软件,使得“微软肖像”成为了微软研究院网站上下载量最大的软件之一。
很多用户在下载了我们的产品后,非常巧妙地将这项技术应用在了日常生活或者工作环境中,给他们的生活与工作带来了很大的便利,于是他们也纷纷通过网上留言的形式把这些新奇的用法分享给了我们团队。
我印象比较深的是两个外国朋友对这项技术独具匠心的使用故事。John是一位新生儿的父亲,当周末妻子出去购物,留下他和孩子两个人在家的时候,他时常为寸步不能离开孩子而烦恼。当他从网上下载了“微软肖像”之后,他在婴儿床前按了一台摄像头。于是他可以带着掌上电脑随心所欲地在房子的每个角落活动,通过视频观察孩子的一举一动,他甚至还能放心地在院子里除草,而这往往是周末最占用他时间的一项劳动了。
Peter是一家医院的见习医生,经常会轮到晚上值班巡视病房的差事。可是因为住院病人多,医生少的缘故,很多发生突发情况的病人往往无法得到及时的救护。于是,当他拥有了“微软肖像”技术之后,他在巡视某一个病房的时候,也可以通过掌上电脑看到安在其他病人床前的摄像镜头做提供的情况。他可以在移动中实时“观察”每个病人,一有紧急情况便可以跑过去处理或者通知其他医护人员。Peter说有了“微软肖像”,就像有了N多双眼睛同时在帮他巡视病房。
上面的主人公只是很多用户中的两位。他们对这项技术的认可和别出心裁的应用也极大鼓舞了我们对“微软肖像”不断改进的信心。直到2007年5月20日,我们组推出了最近也是最新一款试用版本为止,细数下来,“微软肖像”前前后后经历了20个版本的更新和改进。在这八年中,“微软肖像”项目也经历了一段曲折的发展历程。
难题迎刃而解
退回去想想,也许你很难想象2000年时9.6千比特/秒的手机网络的带宽能做些什么?可是,就在当时网络带宽较低的情况下,我们便在捉摸:如何实现移动设备的可视通信呢?显然用传统的彩色视频技术是实现不了的,因为彩色视频对传输速度和网络带宽的要求都比较高。9.6千比特/秒的带宽就把这个可能给否决了。另外,既然是手机,CPU的处理能力就不如台式计算机那样强大,所以本来在台式计算机上运用的视频压缩和解码技术就不能被照搬到手机上。我们就要对压缩和解码算法进行一些简化,才能最终运用到手机上。在综合考虑上述两种条件的基础上,我们开始了“微软肖像”的研究。
“掌上”视频拉近你我的距离 李江(2)
2008年11月25日16:44
当时,在跟我们的研究主管、视觉计算领域的专家沈向洋博士讨论中,我们认识到:既然,视频压缩技术已经相当成熟,想要从这方面寻求突破几乎不大可能,那么是否可以结合视觉技术从数据本身来寻求解决呢?要进行实时通讯,使得你讲话的意思能够被对方了解,除了语音之外,表情也很重要。那么表情怎么来传递,我们就想到了用线条的方法来传递,想着用线条的方式带宽是不是就可以占用得少一些。
当时我们注意到,在实时视频通信中,人们对图像的要求,并不像在定睛观看一幅图画时那么高。人们不太注意形象,而更注重表情;不太注意细节纹理,而更注意整体轮廓。从这个意义上而言,在视频通信中,通话者大脑真正感兴趣的有效信息并不多,所以通过提取通话者的表情轮廓和线条等简单信息,就可以有效表达一帧视频的绝大部分内容。如果只压缩和传输这部分用线条表示的信息,将会大大降低计算和通信的负荷。
静态“素描”一帧的线条虽然看上去依稀可辨,但是如果要实现由静至动,让多帧静态“素描”连续动起来,就会出现很多问题。首先,在光线强度常易变化等条件的影响下,两帧之间的过渡非常不平稳、闪烁不定。另外,用线条表示出的通话者头发,因为其发迹覆盖处没有黑色填充而显得非常的不自然。在这种情况下,我们研究组就想到用“二值视频”技术来解决这两个问题:在0-256之间确定一个亮度的阈值,图像像素灰度值高于该值则为白,低于该值则为黑。非黑即白(一般用1和0表示)。这种技术不只区分出了线条,而且内部什么地方是白,什么地方是黑,都可以填充进去,这样头发的问题就解决了。
“二值视频”技术大大降低了视频的原始数据量,而且传输中的连贯性较好,可是其间产生的噪声还是比较多。后来我们又想了一个更为巧妙的办法,这也是“微软肖像”中的核心技术:在区分黑白的时候,不是设定一个单一的阈值来比较,而是设定一个阈值带来比较。阈值带有一定的宽度范围。如果图像像素的灰度值在这个阈值带的上限以上,我们能够很明确地说它是1;如果在它的下限以下,我们也可以很明确地说它是0。但是如果图像像素的灰度值处于这个阈值带之内怎么办呢?我们的处理办法是根据它同一帧内周围的像素和它前一帧相应点周围像素的情况来确定。简单地讲,比如前一帧该点位置是黑的,这一帧该点位置也就是黑的。这样两帧播放起来就连贯了。根据这个原理当时,还是实习生,现在已经是副研究员的许继征给出了相应的算术编码解法。
填补学术界空白
总的来说,我们组投入了较大的精力于“二值视频”技术的摸索和创新,也通过一系列的开创性研究填补了学术界的空白,而且始终居于世界领先地位。同时,我们还创立了一种新型的视频形态——“二值视频”。
大家知道,国际上静态的彩色图像有JPEG图像,动态的彩色视频有MPEG视频,静态的黑白二值图像有JBIG图像,而我们创立的可称为动态的黑白“二值视频”。后来,在“二值视频”的基础上,我们又进一步推出了“四值视频”与此同时,随着带宽条件的不断改善,我们也试着用“第二条腿”走路——在确定了黑白版的微软肖像视频的基础上,我们组又开始向“彩色版”挺进。
从黑白版的“二值视频”到“四值视频”,再到彩色视频,随着对传输速度和带宽要求的递增,“微软肖像”为用户提供了可以满足不同网络条件而可供选择的软件类型。这三种技术从视频的效果来看,应该说已经包含了所有的功能。近一两年中,我们所做的工作主要是为增强这个可视通信软件的一些其他辅助功能,比如能够更多地支持不同类型的摄像头,能够增强连接性,或者拍张照片,可以传送文件等。
“微软肖像”软件是很多人团结协作的成果。当时是软件工程师,现在是开发主管的陈刚,编译出了第一个可运行的软件版本。其后又有余可曼、唐健、和林庆维接手这个软件的制作。很多访问学生如周涵宁、王勇、王凯波、王利杰、贺铁林、林云峰、吕江波等都对算法等各方面的研究做出了贡献。当时的研究主管沈向洋博士、李世鹏博士、张亚勤博士等对这个项目给予了大力支持。
虽然目前“微软肖像”还没有被正式运用到微软的产品中,但是这项技术却通过各种各样讨论掌上电脑和手机的社区网站不断被世人认识,并通过资源共享真正让用户体验到其中的交互乐趣。2001年,“微软肖像”技术在国际多媒体大会上向国际学术界宣布它的诞生。同年8月8日,当USA Today(《今日美国》)的记者第一次通过媒体的声音公开向全世界读者介绍“微软肖像”的时候,我们从来没有想象过这项技术会受到如此的青睐和好评。后来随着包括《麻省理工学院技术评论》等重量级媒体对这项技术的报道和千千万万热心用户对我们软件的反馈之后,我们坚信了”做真正满足用户需要的产品才是创新研究的根本”这一信条。我想这也是我们从事计算机基础的研究工作者应该谨记的信条。
作者介绍:
李江,1999年1月加入微软亚洲研究院任研究员,2004年任多媒体通信组主任研究员。之前他曾任浙江大学物理系副教授。他于1989年获清华大学物理系学士学位,1992年获浙江大学物理系光学硕士学位,1988年获浙江大学数学系应用数学博士学位。他做研究项目看重对人的意义和潜在的商业模式,做事讲究简单有条理,平时爱看书、看电影及外出旅游。
让语音技术改变人们的生活 余鹏
2008年11月25日16:44
在MSRA的办公区墙上,贴着比尔·盖茨曾经说过的一段话:“每天清晨当你醒来的时候,都会为技术进步给人类生活带来的发展和改进而激动不已。”这句话也诠释了MSRA这10年来成就的动力源泉――用技术改变人们的生活。
我在清华大学的博士课题是语音识别,毕业后进入MSRA的语音组。语音技术经过多年的发展取得了长足的进步,但是在应用领域,却面临着一个尴尬的局面:一些在实验室的理想环境下表现完美的技术,很难找到现实的应用;而在现实生活中,目前语音技术的稳健性和适应性却又达不到应用场景的需求标准。
如何找到连接技术和应用的桥梁,是我们语音组的研究员考虑最多的问题。
此路不通?换条道!
2003年春天,正是北京SARS肆虐的日子。也就是在那时候,我们开始了语音识别用于音频检索的研究。我们选取的第一个应用是搜索个人的语音邮件,针对的场景是10小时以内的语音数据。
最开始,我们直接用语音识别系统将语音邮件转换成文字来搜索。但很快发现即使最好的语音识别系统,针对语音邮件的准确性也仅仅只有70%左右,而这种情况下,搜索的准确性无法令人满意。为了解决这一问题,我们提出了基于词格的音频检索方法,简单的说,就是除了在语音识别的首选结果上搜索外,加入多候选识别结果的信息。比如,语音识别的第一候选是“研究院”,但同时给出许多次优候选,如“研究员”。通过索引这些多候选结果,搜索的准确性有了大幅度的提高。
但我们很快发现了另一个问题,常用的语音识别系统依赖于一个事先选取的词典,而不在词表中的词是不可能被识别出来的,这在语音识别中称之为“集外词”问题。对于音频检索,这个问题变得尤为严重,因为很多集外词都是可能被搜索到的关键词。针对这一问题,我们采用了基于音素的语音识别系统,将音频内容和用户关键词都分拆成音素来匹配,取得了很好的效果。
在那一年的Director Review和第二年的TechFest,我们演示了这一技术,得到了广泛的好评。
跨越“100小时”这座大山
在我们演示了基于音素的音频检索技术之后,得到最重要的一条反馈是,这一技术要做到实用,必须解决数据集的尺度问题。在我们的解决方案中,搜索时间和数据集尺度是成正比的,这称之为“线型搜索”。在数据集小于10小时的情况下,搜索的时间在2秒以内。但当数据集到了100小时的时候,搜索时间就不可接受了。而100小时,是一个实际应用的基本要求。
其实在文本搜索领域,通过基于词的倒排索引,海量数据集的搜索早就不成为难题。但在我们的系统中,因为采用音素为基本单元,使得简单的倒排毫无用处:基本上一个音素会出现在所有的文件中。100小时难题成为横亘在我们面前的一座难以跨越的大山。
经过几次的推倒重来,反复的争辩讨论和大量的实验验证,最后我们提出了索引可变音素串的方法,即通过倒排较长的音素串实现加速,同时借鉴n元文法的backoff方法解决集外词问题,成功地解决了音素一级的索引问题。当最后的演示系统成功地在1秒以内搜索100小时数据集的时候,我们都情不自禁地欢呼起来。
(余鹏 (中) 与项目同事在一起展示语音搜索所用的道具)
出租车上写出来的程序
在微软做研究有一个别的地方无法比拟的优势,那就是,你会有机会把自己的想法和技术应用到微软的软件产品中去,真正做到改变人们的生活。在演示了我们最新的音频检索技术之后不久,Microsoft Office ? OneNote产品组找到我们,表示出应用这一技术的兴趣。
但是我们很快发现要把技术产品化并不那么简单。由于OneNote产品组自己的产品进度非常紧,他们没有足够的人力资源来把这一技术付诸实现。如果我们不想放弃将这一技术付诸产品的机会的话,我们必须亲自参与具体的产品开发,而那意味着我们需要付出大量的努力和时间在一个作为研究员来说并不熟悉的领域。
我们最终选择了全力以赴地将技术实现到产品中,因为我们都相信,没有实现的技术,终究只是技术。那段时间,是我进入MSRA后最为忙碌的日子。除了参与产品进度,我们还有其它的研究课题,加班是经常的事情。举一个例子可以看出当时的紧张程度,因为软件版权问题,我们需要重写音素识别的解码器,而这一工作是我的同事赛德用了一个月的时间,每天坐出租上班的路上用笔记本写的。后来我常常和他开玩笑说那是他的“Taxi Project”。
我们最后提交给OneNote产品组的代码整整有10万行。由于我们的努力,音频检索成功地随着OneNote软件于2006年底发布。那一年的Director Review,我们骄傲的宣布了这一消息,得到了院长们由衷的掌声。
迈出“技术改变生活”的第一步
OneNote的音频检索只是我们迈出的第一步,随后,我们的研究方向转向数据量更大,内容更复杂,需求更多样化的互联网音频/视频搜索和企业级音频/视频的搜索。微软庞大的产品线也让我们找到了更多连接语音技术和用户需求的渠道。
当我们致力于用语音技术改变人们生活这一目标的同时,我们发现这也同样指引我们做出更多更有用的研究。在我们摸索技术实用化的过程中所解决的很多问题,对于学术领域也带来非常大的影响。从2003年开始,我们发表的一系列关于音频检索的文章,现在正引起越来越多的关注。
在MSRA,“用语音技术改变人们的生活”,这一当初我选择语音识别作为我的专业课题时的梦想,正在一点点地成为现实。
作者介绍:
余鹏,浙江绍兴人,2002年毕业于清华大学,获信号于信息处理博士学位。之前于上海交通大学获通讯工程学士学位。现为微软亚洲研究院语音组研究员,研究方向包括信号处理,语音识别,音频搜索,信息检索等。最大的业余爱好是篮球,在球场上是一名出色的投手。
如何做一流的研究 朱文武(1)
2008年11月25日16:44
从研究生阶段开始算起,我已经在计算机多媒体与通信领域做了近二十年的“研究工兵”了。做研究是我一直乐此不疲的事业,它源自于从小对科学的热爱。最近十几年中,由于工作的需要我前后指导了很多学生做研究,看到他们在学术上的成长和科研上的进步是最让我感到自豪的事情。对于一名学生如何起步做一流的研究,也是我非常乐意与朋友们探讨和分享的话题。
在谈怎样做一流的研究之前,我想先谈一下怎样认知自己和怎样在研究中发挥自己的优势(这一点不仅仅对研究实用,对一个人的职业成长也有用)。我觉得在确立研究事业或者任务之前,每一个人都最好去审视一下自己,达到一个对自己能力和兴趣的最好认知,在西方国家把这一过程称之为Identify your strength。通过分析自身的强势在哪里,对哪些方面更有兴趣,能力在哪方面,然后确定比较喜欢的能发挥自己优势的研究课题。我觉得做研究要积极与自己的优势相结合,并努力挖掘自己认知方面的潜能,这样才能在研究中发挥自己的优势。
做研究就好比爬山。首先,你必须热爱自己所从事的科学研究工作,就象爬山运动员首先必须热爱爬山运动,这是非常重要的一个前提。比如,我自己非常喜欢视频通讯,虽然我在纽约理工大学读博士期间导师分给我的论文题目是用激光成像探测肿瘤(因为这个题目有奖学金),可我对视频通讯有浓厚的兴趣,就一直利用其它时间从事视频通信的研究,这样相当于3年里我做了2个博士论文。另外,扎实地学好一些基础学科和掌握英语等语言技巧也是从事研究工作的必备条件。立志做研究的人,最好在数学、英文、逻辑思维能力等方面打下坚实的基础。从我个人的亲身经历而言,学好数学和英文对我的确是非常受益的。比如,我在伊里诺斯理工学院读硕士时,我的导师 (Nicklos Galatasnos和Aggelos Katasaggelos教授)是希腊人,希望能用数学来证明我们提出的图像复原理论。于是我花了几个月推公式证明了我们的观点,后来在世界上顶尖级学术杂志上发表了这个理论。
在开始做一个研究之前,选好一个题目和方向至关重要,就像爬山运动员确定爬山的方向及目标。一个好的题目和方向怎么选,这里面有很多的学问。当然,在大方向的把握上,导师的宏观指点会对你最初研究思路的展开起到拨开云雾的作用。要珍惜每一次与资深专家交流的机会,多听听领域内最前沿的技术讲座,这样才能有机会了解到领域内最好方向的研究题目。比如,1997年随着互联网的发展,视频在互联网上的传输是当时非常重要的方向及研究题目。当时视频在互联网上的传输都是block-based , MPEG4是scene-based ,于是我认为MPEG4在互联网上的传输可能会具有突破性。当时我就找了张亚勤谈了我的想法,亚勤对这个想法给予了非常的肯定并进一步进行了方向的指导。我和亚勤的研究成果在2000年IEEE Transactions on Circuits and Systems on Video Technology (电路与系统视频技术学报) 发表,后来这篇文章获2001 IEEE Transactions on Circuits and Systems on Video Technology最佳论文奖。再举一个例子,随着无线通信的发展和互联网的成功,亚勤、我和张黔认为视频在移动互联网是当时发展的趋势,因为无线信道特性和功耗具有极大的挑战,于是我们选无线互联网视频通讯为主要研究方向并指导学生展开MPEG4在无线互联网上的研究工作,结果这篇论文发表在IEEE Journal of Selected Areas on Communications(多媒体通信专辑)并获2004 IEEE Communications Society (多媒体通信专业委员会)最佳论文奖。
在大方向明确了之后,在选题时你还要学会站在前辈巨人的肩膀上去做研究,这一点及其重要。在这个领域这个课题到底发展到什么程度了,已经有哪些方法出现了,还有没有可以突破的地方,哪里有。因此,在进入一个领域之前,要做一个详细的论文研究综述出来,才能知道这个领域内最前沿的技术是什么,大家讨论最多的热门课题是什么,他们是怎么做的。俗话说磨刀不误砍柴工,我一般会指导学生花1-2个月的时间仔仔细细地做一遍综述。否则,盲目的开始就会导致做了一段时间后发现这个其实与别人的很相似或别人已经做出过一些成绩了,以致造成了很多无用的重复劳动。
如何做一流的研究 朱文武(2)
2008年11月25日16:44
等到把综述都缕清楚之后,就要对综述进行适当的整理和归类。通过对综述的分析,弄清楚哪些方法能解决哪些问题,我们要研究的问题用什么方法才能解决。前人的研究方法之间,又有着怎样的优缺点。当你对自己的研究课题及别人的方法有个大致的了解的时候,你就会明白你的课题到底会有哪些区别于前人的独特贡献,方法上又有怎样的不同。你的独特贡献到底是什么。基本上,思考到这个程度的话,你就能选出一个比较好的题目。因此,确定一个与别人不同的有创新的题目非常重要,是一个很需要时间投入的过程,我往往会鼓励学生花2-3个月时间把题目想清楚,而不要急着进去。
选好研究方向和题目后,下面就是怎样解决问题。做研究一般有两种解决问题的思维方式:一种是从深度上去纵向延伸,沿着一个方向突进,把这个问题解得越来越好。这种思维一般是循序渐进式的,比如先找方法A, 能提高多少,然后又找方法B, 又能提高什么,然后再发展到方法C,不断优化下去。大部分研究者会习惯于采用这种循序渐进的方法。这种方法让我们每一次在改进的过程中都能有所提高。另一种思维就是从广度上去拓展。在这个学科和领域里面,借用其他学科和领域的方法加以解决,这种大胆的创新往往能找到很大的突破。用其他领域的方法来解决这个领域的问题,这个是需要很广阔的知识面的。我知道的很多杰出的研究都是在这种思维方法的指导下完成的。这种创造性的研究工作很有用。我自己无论是在求学时,还是在工作中,都很愿意跟不同学科的人交谈来丰富自己的知识和视野。我当年在研究院工作的时候就跨越了2个方向,进行了1次的转型:当初我在研究院最先是在亚勤的指导下从事多媒体通信研究工作,后来亚勤让我在研究院重新开辟了一个新的研究组——无线与网络组。上面所提到的这2种解决问题方法都非常重要,都会把你带向成功。
掌握解决问题的方式和方法后,剩下拼的就是功底和持之以恒的精神,就像定好爬山的目标和路线,剩下就是不屈不挠的攀登。当年在研究院时,Harry经常用打井挖水的道路鼓励我们的研究员做研究要有持之以恒的精神:不要没看到水就轻易地放弃,然后再换个地方继续挖,又没见到水,再换地方挖,这样子永远也见不到水。而是要沿着一个地方往深里凿,坚信方向不要轻易放弃,直到挖到水为止。
总结来说,做研究就像爬山,首先要定好方向和目标,选好题目,然后就持之以恒去努力和攀登,这样就会成功。正像马克思所说,在科学上没有平坦的大道,只有不畏劳苦沿着陡峭山路攀登的人,才有希望达到光辉的顶点。
作者介绍:
朱文武,现任微软亚洲工程院首席架构师。1999年至2004年期间在微软亚洲研究院分别担任无线网络组主任研究员及无线与系统所所长。2004年至2007年任英特尔中国通信技术实验室总监、首席科学家。朱文武1985年毕业于国防科技大学电子工程系获得学士学位,1993年获得伊利诺斯工学院电气和计算机工程硕士学位, 1996年获得美国纽约理工大学电气工程博士学位。1996年至1999年任美国中央贝尔实验室任研究员。朱文武热爱篮球,曾被选入湖南省大学生篮球队参加全国大学生中南区联赛,曾作为主力代表国防科技大学参加全国研究生篮球联赛并获得优秀运动员奖。
后记
2008年11月25日16:44
掂着这本即将付梓的沉甸甸的书稿,“收获”后的成就感中夹杂着一丝难以置信。 
2007年7月底,为纪念恢复高考30年,我们为开通不久的微软亚洲研究院博客征文,邀请员工们分享当年的高考经历。宋睿华研究员为1996年陕西省理科高考状元,自然是我们的重点约稿对象之一。当时她正在国外参加会议,在旅途中写了一篇《回想我那年的高考》(后更名为《状元女》发表在本书中)。行文质朴、细腻,我深感触动。当时就想,微软亚洲研究院向来卧虎藏龙,还不知道有多少故事值得我们挖掘呢。如果能让大家把各自的成长及在微软的经历记录下来,应该是一件有意义的事。
恰逢微软亚洲研究院进入十周年倒计时,大家开始思忖如何向这过去的十年“致敬”。当回望我们这家企业研究院所走过的历程,我们激动地发现这段历史里有太多值得记忆和记录的人和事。于是出书的想法再次浮现出来。我们想出一本书,一本我们的员工自己写的书,一本涵盖微软文化及技术的书,一本记录大家个人及职业成长历程的书,一本包括像宋睿华分享的那种故事的书。
很快我们就意识到,策划这样的一本书是需要勇气的。熟悉微软亚洲研究员的人可能都读过凌志军先生五年前写的一本畅销书《成长》(新版叫《成长比成功更重要》)。书中生动地描述了微软亚洲研究院早期的十几位员工成长、成功的故事。许多年轻人,包括当时的自己,读了此书后深受启发。可是凌先生毕竟是专业作家,我们的业余作者们能像他那样妙笔生花,“讲出”一个个好故事吗?
犹疑之际,西岸奥美公关公司总裁周红旗先生、清华出版社的周菁老师,以及《科技日报》记者房琳琳给了我们极大的鼓励。他们首先对书的立意给予了充分的肯定,同时对书的内容提出了专业性的建议。当然,最大的支持还是来自我们的员工,也就是本书的五十位作者们。很多研究员在追赶一个又一个紧张的论文截至期限之际,利用零星空闲为这本书完成属于自己的“小故事”。几位外籍员工也热情加盟,给此书增添了不一样的经历和感受。还有领导团队的成员们,他们经常出差在外,大多都是在飞机上整理思路,在键盘上敲打成文。
当书的雏形渐现,我们就像孕育了一个婴儿一样兴奋不已。这本书收集了近六十篇现在以及曾经在微软亚洲研究院工作过的员工自己讲述的故事。它们原汁原味,没有华丽的词藻,可能也缺乏斐然的文采,可是字里行间流露的都是作者们的真情以及他们对微软、对工作、对生活的热爱。他们的成长、成才经历折射出社会的变迁、文化的差异、职场的挑战和魅力,以及敢于梦想的力量。
我们以《微软的“梦工场”》为此书命名,因为觉得它最能体现微软亚洲研究院的精髓。微软研究院自1991年成立以来,一直把“变梦想为现实”作为目标。位于北京的微软亚洲研究院在过去的十年里能发展成世界一流的计算机研究机构,很大程度上取决于我们敢于梦想、鼓励“做梦”的文化。这种文化点燃了多少青年才俊“用技术改变未来”的激情,培养了研究人员长远的眼光和富于冒险的精神。毫不夸张地说,微软亚洲研究院是一个“梦工场”。在这里,你不仅可以追逐自己的梦想,而且可以把梦想变为现实。
微软亚洲研究院即将走完第一个十年。在我们迈向下一个十年之际,我们希望这本书能为我们过去的心路历程作个总结。感谢所有的五十位作者们,周红旗先生,周菁老师,我们的编辑葛瑜、房琳琳以及其他在不同阶段给此书提供支持、帮助的朋友们。特别感谢比尔·盖茨先生。他在卸任微软日常公务之际,怀着对微软亚洲研究院的深厚情感,为此书写了前言。而且更重要的是,正是因为十年前盖茨先生的卓越远见以及他对中国人才的充分信心,微软亚洲研究院才得以在北京建立。
谨以此书献给微软亚洲研究院的全体同仁以及长期以来支持我们的家人及公司内外所有合作伙伴。
2008年9月
金俊
微软亚洲研究院
传播及公共事务总监
附录(1)
2008年11月25日16:44
口头常用语
Microsoft: 微软公司,由比尔·盖茨与保罗·艾伦创始于1975年,正式组建于1981年6月。目前,微软公司已经发展成为全球最大的软件公司,在个人和商用计算机软件行业居世界领先地位。
MSRA: Microsoft Research Asia的首字母缩写,微软亚洲研究院。微软公司在全球拥有五大基础研究机构,1998年11月5日在北京建立了微软中国研究院(后更名为微软亚洲研究院),到目前为止,已经发展成为了除美国本土以外最大的研究院。
Idea: 想法;创意。
Offer: 经常有人谈论求职时有没有收到offer的问题,其全称应该是offer letter。所谓offer letter,目前还没有一个统一的名字,有人称之为“录取通知”,有人称之“录用信”,也有人称为“要约函”。一般都是外企或国外学校发的表达自己愿意录用的一封格式类似的信件,现在很多人都把自己接到公司的“offer letter”或者电话通知,以及其他一些被公司通知面试合格能够录用的形式就说收到了offer,一些外企或是很正规的大企业还会向对方发送正式的offer letter。
Mentor: 对实习生给与指导的导师,一般分为研究类的导师与生活类的导师。在微软亚洲研究院,有一半以上的研究员可以担任实习生的导师。Mentor一词又曾被实习生们诙谐地音译成“馒头”,也逐渐在研究院内部风靡开来了。
Demo: 一项新技术的最初原型表现形式,简言之,即为技术雏形。
Lounge: 研究院会在每层开辟出一个公共区域,兼茶水间和休闲娱乐区的功能,向员工、实习生与访客共同开放。在Lounge内,不仅可以品尝到式样繁多的饮料,吃到新鲜可口的水果,而且可以在下班时间玩台球、桌上足球以及Xbox游戏机等休闲娱乐项目。
Deadline: 项目完成的最后期限。
Bug: 软件中的缺憾。
Workshop: 学术研讨会。微软亚洲研究院经常面向亚太区及全世界学术界举行学术研讨会,会议主题主要围绕着计算机领域内最前沿的研究趋势和热点。
Show: 演示、展示。
Patent Stone: 专利石。微软内部对每一项由员工自主创造出的新发明,都会授予其主要贡献者一块6.5厘米见方的黑石头作为奖励,上面刻着这样一行字:“Thank You for Your Inventive Contribution to Microsoft.”
白板文化:白板对于研究院的员工而言就像计算机一样普遍,不只在办公室和会议室里,甚至在休息大厅的墙壁和桌面上都是由一块块的白板铺成。“白板”是在复合木料上加一块白色厚塑料做成,水彩笔可以在上面任意书写和擦抹。研究员们可以在白板上随意涂抹智慧碰撞出的火花与灵感奔发出来的Idea。这就是研究院从建院之初就形成的特有的“白板文化”。
微软常用语
Director Review: 研究院内部会定期组织各个研究组向院长团队展示近期的研究成果,这一活动称为给院长做汇报,一般每个月会组织一次。
Bill.G Review: 向比尔·盖茨做汇报。在比尔·盖茨退休之前,每年微软研究院系统内会组织五大研究院将各自最具有创新性的技术成果向盖茨做当面汇报,让盖茨了解研究员们对计算机未来的构想。
Think Week: 盖茨每年都会抽出几个星期的时间,用“闭关”的方式独自思考问题,这被称为比尔·盖茨的“思考周”。在“思考周”之前,盖茨会号召各部门精英在他们个人的专长领域给他提供大量阅读材料和技术建议。在“思考周”里,盖茨通常的工作方式是埋头阅读经过筛选的材料和技术建议,记下自己的想法,静静思考,最终做出一些对公司技术战略有较大影响的重要决定。
Winedown: 微软公司内部员工在一起放松、愉悦的娱乐活动。从字面Wine + Down直接翻译过来就是喝倒之意,可见这种活动的确是以玩得尽兴为目的的。
Lunch Interview: 午餐面试。面试官利用午餐的时间跟应聘者交流。
TechFest: 微软技术节。为了让微软公司的产品部门全方位地了解微软研究院的最新研究成果,促进创新技术向产品的转化,从2001年开始,在每年三月初的时候,微软研究院都会在总部举办一届全球范围的技术节(Technology Festival),简称TechFest。微软技术节向公司内部的全体员工开放,每年大概会有6000人出席这场技术交流盛会,这也是微软研究院一年一度最隆重最热闹的活动。
附录(2)
返回书籍页