Talk

记录科研大牛的方法论,讲座的总结,书籍的摘抄,和朋辈的交流。

How to Do Your Research

Hal Abelson

I'm looking for leadership and initiative. My group has a large number of undergraduate students and I look to our grad students to be role models and leaders. Compelling application essays should talk about actual accomplishments: applications you've created that others are using, technical organizations you've started or where you play a major role. There of course needs to be a track record of academic excellence. But the centerpiece of my group is empowering people of all ages through technology, as users and creators. That passion should come through in the essay-and it's even better if there's a track record to point to.

Karl Berggren

An application essay provides a number of useful information points when I'm reading a candidate's application. I'm mostly looking to see if the person can communicate clearly. Second, I'm trying to find out a bit about the person,especially their personality and motivation, and how they think about science and engineering. Finally, I'm interested in learning a bit about what circumstances have shaped the candidate's life. This is the place where I want to know if someone has taced exceptional challenges or took advantage of a unique opportunity to do something special. Because of the importance of writing in an academic environment, I'm looking to see if there is structure to the essay, and if paragraphs are well formed. For me, the essay is really not usually the main compelling reason to admit a student, but an essay that is over the top, or is poorly written or poorly structured, sometimes puts me off a candidate who otherwise would be a possible admit.

Adam Chlipala

I think it's useful to think of PhD applications as more like job applications than earlier educational applications. You are applying to be an apprentice researcher, and thus concrete research experience (attested to by knowledgeable supervisors in letters) is most useful to give evidence that you will succeed. Then the specifics vary by research area. I'm looking for specific technical skills and bigger-picture direction-setting skills. In my area, the former are a mix of software/hardware implementation at a decently large scale and comfort with rigorous math and logic. The latter come down to finding ways that computer systems are developed ineffectively today, and thinking up ways we could change the development tools-ideally applicants can point to cases where they were the ones driving that brainstorming, not just implementing ideas coming from supervisors. Giving some examples of project directions you want to explore is helpful both for showing that kind of initiative, and for helping potential advisors gauge fit with their own interests. However, don't worry that anyone will hold you to working on any of the specific ideas you list!

Fredo Durand

Mostly two things:

1/ Can the applicant think and write deeply and intelligently about state-of-the-art technical issues?

2/ What kind of technical area (very broadly speaking) are they interested in?

One challenge for applicants is that the two answers sometimes conflict: the first question requires narrowness, but you probably want to show you're interested in a broader set of topics to maximize the number of faculty members who feel they may want to work with you. So, I usually advise students not to restrict their essay to their past research, but have a paragraph or two at the end or beginning to list the areas that appeal to them. Ideally, the letter would give me a sense of how they attack an open problem, through the example of past projects (ideally research projects).

Regarding recommendation letters, I want to read about a candidate's potential to do research. The most insightful letters are from people who have supervised vou on a research project, or on a project that involves a fair amount of independence and creativity. I find letters from people who only know a candidate in a class context less useful, unless the student has done a particularly remarkable project. Letters from mentors in industry can be useful, especially if they do or have done research. However, not all applicants (including successful ones) have three letters that are equally thorough, and it's quite common to have 1 or 2 letters from people who really know you well from a research perspective and 1 or 2 that are a little more superficial.

Polina Golland

The essay should focus on your interests and look to the future. Describe what problem you would like to tackle in the future and approaches you might want to take. Even if I disapree with what the applicants write, it is revealing on how they think and gets me interested. Keep the description of your (very impressive) past projects to the minimum, mention them only as support for what you want to do in the future. Your CV, other sections of the applications, and recommendation letters will talk about past projects, and it's a pity to use your essay to rehash it again.

Leslie Kaelbling

对我来说,申请中最重要的事情是最好的推荐信,这一点优势非常明显。主要的研究推荐信应该证明申请者的创造力、独立性、勇气和完成事情的能力。其他的推荐信通常不太重要。我喜欢那些与众不同的申请者,我通常对那些自己做过一些事情,或者在一个不同寻常的地方做过一些事情的人比那些在一个非常高产和知名的研究小组中工作了四年、发表了很多论文的人更感兴趣。大部分的申请文书对申请既不积极也不消极。我记得并重视的是那些我从中学到了一些东西的文书——这些文书因为有强烈的或者新颖的观点,或者阐述了明确的愿景而真正有趣。我也喜欢感觉到申请者真的内心热爱研究——他们不是简单地申请做博士,因为这看起来像是通往其他东西的好跳板,或者是他人高度赞扬的事情。如果他们有解释的话,我不会在意几个不好的成绩:比如学生早期的成绩,或者某个学期困难的成绩,或者是探索的结果。【我更愿意看到一个学生有几个B或者一个C,但是他们挑战了困难的课程,而不是一个有完美GPA和完全标准本科课程的人。我对一个学生选修了两倍于正常课程量的课程完全不感兴趣——他们应该去做研究,而不是卷上课!】

David Karger

当我看一份申请文书时,我会问两个问题。

(1) 这个学生会对那些让我兴奋的事情感兴趣吗?

(2) 他们有没有必要的独立性和组织能力来为一个如我这样随和、无组织的导师工作?

对于第一个问题,我喜欢听你对哪些具体问题感兴趣,以及为什么。不是为什么你从四岁就开始热爱计算机科学,而是为什么你认为某些具体问题重要且有趣,以及你可能如何尝试解决它们。如果你看过我小组正在做的一些工作,并谈论为什么你觉得它有趣(不只是觉得它有趣),并可能给出一些进一步发展的想法,那么这肯定无害。但是,听到你自己的想法也很棒。你不必已经解决了这些问题,尽管谈论一个你已经解决的问题是很好的。

第二个问题特别针对我的指导风格。我给我的学生提供了大量的支持和反馈,但我不做很多管理工作。所以,我需要知道一个学生会采取主动,选择他们要工作的东西,对设计和实现做出决策,设定他们自己的截止日期并遵守它们,带着想法和问题来开会推动工作。仅在你的声明中声称这一点并没有什么意义,但我会在过去的工作(和推荐信)中寻找这种迹象。

Manolis Kellis

我希望看到几点:

(1) 思维的清晰度:这体现在文书中;他们对(领域,他们的工作如何融入,更广泛的视角,下一步等)的看法;他们描述成就的方式(组织,背景,创新的清晰度,他们能否解释问题,挑战,新颖性等);当然,还有他们的成绩和成就。

(2) 研究成果:表明他们能创新,发明,发现问题,界定它们,完成任务,写论文,完成项目,打包代码,创建工具。

(3) 推荐信:证明他们的突出,创新,新颖,能够独立进展,但又有团队精神和合作。

(4) 技术:当然,他们的培训,严谨度,背景,成绩,竞赛等。

(5) 热情:特别是对于应用领域如基因组学生物学医学,显示他们真正关心应用领域,而不仅仅是算法,而且他们真正努力在他们选择的具体应用领域找到新的东西,并能够解释他们的结果并得出关于应用领域的结论。

Stefanie Mueller

对我来说,最重要的是申请人能够证明他们在我的研究领域有研究经验。招聘一个博士生是一个五到六年的承诺,所以对我来说,申请人能够向我证明我们将一起进行令人兴奋的研究非常重要。

当我阅读一份申请时,我首先检查申请人是否在与我研究小组工作相关的主题上在我的研究领域有发表论文。在此之后,我看推荐信的作者,看他们是否来自我研究领域的教员,以及他们是否谈论过申请人能够在我的领域进行研究。来自我研究领域之外的推荐信在确定申请人是否能够在我的领域进行研究上不是很有用。在此之后,我阅读文书,看申请人是否有我也会感到兴奋的想法。

Will Oliver

当我阅读一个研究生申请人的文书时,我试图了解学生及其研究兴趣的情况。这包括学生对研究的动机。这个人是谁,他们来自哪里,什么激发了他们对科学和工程的兴趣,这在他们的生活和他们的轨迹中如何体现出来?然后,我寻找研究经验的例子,定义得很宽泛。这可以是本科生研究员的经历,暑期实习,或者甚至是一个重大的业余项目(举几个例子)。我寻找那些项目中的有形产出,比如经过同行评审的出版物。然后我看学生在研究生院想要完成什么。在描述这些目标时,我欣赏真诚的知识好奇心和热情的表现。虽然这种方式自然会导致研究主题的一些特定性,但我也寻找一些灵活性和广度。例如,即使学生有一个首选的主题或小组,表达其他(通常是相关的)也会感兴趣的领域也是个好主意。

Al Oppenheim

很久以前,我的一位phd问我,我在选择与我一起工作的学生时,我看重什么。我快速而有点玩乐的答案是,我有四个标准:聪明,富有创造力的开箱即用的思考者,与人互动愉快,易于教导。仅从纸面上的申请和没有亲自见过申请人,这些特别是第二,第三和第四点往往很难评估。对于第一点可以根据成绩单有所了解。其他三点,可能主要来自参考信、个人陈述以及可能的个人交流。申请通常弱点是参考人的选择和参考信中缺乏细节,以及个人陈述的撰写。在写个人声明时,我通常建议潜在的申请人使用它作为一个机会,真正显示他们的动机、目标和个性,而不是试图模仿他们认为读者会给予高分的东西。如果个人声明是真诚和诚实的,它就会显示出来。如果不是,也会显示出来。

Gerald Jay Sussman

问题在于我们有太多的“优秀”申请人,他们中的大多数在我们的PhD项目中都会做得很好。大多数人会做好,可以发表的,但是增量的研究。我们接受了大量的优秀人才。但我正在寻找那些可能打破范式,开创新研究领域的候选人。

所以我在申请中寻找的是候选人有一个不寻常的观点的证据,也许与该领域的传统智慧有冲突。我愿意考虑狂人,但我也寻找技术技能和清晰思维与表达的证据,这将有趣的角色与狂人区分开来。 另外,申请中最有说服力的信息是来自以前的supervisor或教师的推荐信,他们证明了申请人的技能和创造力。

George Verghese

我阅读PhD申请的大部分时间都是在评估的初始阶段,这时我正在寻找看起来能在我们的部门或其内的广泛研究领域中茁壮成长并做出重要贡献的申请人。这次阅读中产生的申请文件然后会被传递给其他教职工进行更专注的评估。所以在初始阶段我不一定在寻找与我个人的研究兴趣或风格相匹配的人;这可以在稍后,当我查看被列入短名单的文书时,也许是由认为我可能想看看的其他教师发送给我的。

对于初始阅读,我首先检查申请人的学术记录,以确保他们至少能够处理我们研究生项目中的课程工作。早年的一些瑕疵可能没问题,但任何不强的总体学术记录可能会成为难以开始的地方(虽然我会快速地阅读整个申请,我觉得我至少应该这样做,对于一个付了申请费希望申请的申请人!)。

然后我寻找超越标准学术努力的活动的有形的、有记录的结果,无论是不寻常的、独立的项目(不是课程中的标准实验室项目),还是研究或实习。证实的重要部分在于推荐信,这些信必须反映出对申请人和他们的工作的真实、具体、调整的了解,以及相应的热情。一封听起来普通的信,虽然充满了极好的评价和将候选人评为真正卓越的评级,不会有太大的价值。我想知道信的作者看到的是卓越的成就(在学术和其他方面)和潜力,这是基于他们与申请人的互动和对申请人的了解。

最后,我转向学生的声明,以了解他们的声音,他们如何看待和呈现自己和他们的成就,以及他们在研究生工作中寻找什么。一份表现为成熟、真诚、对他们希望集中的领域有适当认识的精心编写的声明很重要。

Ryan Williams

阅读PhD申请时,我关注几个方面。首先(显而易见的)是我是否与申请人的兴趣相匹配。这并不一定意味着申请人正在研究与我完全相同的问题;这意味着我尝试理解他们在问题和主题上的品味,以及这如何与我研究小组研究的内容相配。另一个重要的事情是独立性(在研究、思想等方面):我们收到来自世界各地的许多有才华的学生的许多申请,但我们没有看到太多显示出在他们的思考和行为上,与他们周围的人(包括他们的导师)不同的独立性的人。这可以在目标陈述中体现出来,但通常更多地体现在信件中。 “独立”可以有各种解释,我故意让这个术语有些模糊,因为我认为任何这些解释都很重要。另一个重要的事情是他们的沟通能力,特别是他们的写作。我总是仔细阅读文书,以及申请人提供的任何写作样本。当然,推荐信证明所有这些品质也非常有帮助。

自动化所

詹仙园老师讲离线强化学习

很多论文通过一系列理论分析就只是加了个损失函数项,而这些理论分析可能没什么特别大的指导意义。

论文写作方面实验要做够,要往理论分析靠(的确有一些漂亮的理论得到算法的文章),然后就是对于卷的领域一定要多看论文(但他现在也做不到看相关领域内的全部文章了,这个领域变得比较卷了),防止做一半和别人撞了idea。

离线强化学习已经可以实用到火力发电(中国6个发电厂部署,效率提升0.5%带来400万的收益),交通控制等。

现在很多benchmark和实际场景差距非常大,有一些算法是在仿真表现很好现实环境上一塌糊涂,也有方法现实环境表现不错但是仿真很一般。

中科院物理所所长蔡荣根院士讲黑洞的故事

狭义相对论、广义相对论都是根据理论应有的的完整性提出来的,在提出后多年实验技术才成熟到可以检验这些理论。这展示了科研发展的一个主要方法:理论的完善性。

科研进展的另一种主要方法是发现了实验现象原有理论解释不了,然后修改原有理论,反复迭代这两步。

最后用温伯格的四条忠告作结:

  • No one knows everything and you don't have to.

  • Go for the messes, exploring the unclear, uncharted areas of sciences can lead to creative work.

  • Forgive yourself for wasting time.(这个指的是实验失败、理论推导都可以被接受的,只要最后成功,之前的努力就不算浪费)

  • Learn something about the history of science, or at a minimum the history of your own branch of science.

兴军亮老师谈科研中的trick

兴军亮老师说,假设你发现了一个很好的现象,千万不要把它当做trick(胡乱解释的话甚至可能是人生的污点),而要努力去找理论的解释。

宗成庆老师谈NLP最终解决方案

我不认为神经网络就是NLP的终极解决方案,过几年(可能是5~6年)一定会有新的东西出来替代神经网络。

解决方案是不断向前发展的,1980年左右基于规则的自然语言理解是主流, 当时出现了基于统计的方法,语言学家觉得统计的不可能成功,但偏偏在所有任务上都超过了基于规则的。

2003年左右,神经网络的兴起也不被主流“统计”看好,因为毫无解释性和解决方案不优美,但是同样的事情发生了。

所以同学们不要觉得神经网络就是最终的结果了,事情一定会不断进步和发展的。

北大工学院教授、杰青、自动化所出身的喻俊志讲水下机器人

语言非常朴素:

“诸位是国家以后的战略科学家,要好好吃饭”,

“结婚前睁大眼睛,结婚后睁一只眼闭一只眼”,

“45岁前拿不到杰青后面就养养身体吧,可以躺平了”,

“我当初想劝一个硕士生和我读博:你都把我培养成了副研究员,再努努力把我培养成研究员呗。他不读,说要去大厂”,

“我这个人比较粗俗,你们不是说要做顶天立地的研究吗,我把仿生机器鱼带到高原做实验,看谁说我的研究没有高度”,

“YOLO是 you only look once(一见倾心)的缩写,程序员都有点闷骚,就把心意写到算法名称里了”。

丁益职业规划

1. 她说她人生的大事几乎没有一件是按照当初的想法发生的,但都和个人兴趣相关。

2. 随时都要准备好。机会是非常的多的。

3. 和别人,和自己相比,永远都要更好(她承认有人会不认同)

4. 要把自己培养得强大,内心要强大,要担得住事;锻炼身体,保持身体健康。她快60岁了,每天7小时睡眠,可以跑半马。

5. 要善于展现自身,比如因为能跑步录用了一位女生作HR。

6. 专业。在公司内有一技之长,转行的人可能更有优势。

7. 职业。就是来打工的,不要把自己当主人。在其位就要做好该做的事。不要因为社会不公平,你就更不公平。

8. 敬业。高材生每个人都可能很专业,很懂规则,但敬业不一样。即使给私人老板做事,也要很专注和用心。即使不是自己的事,也会因为自身认真而了解清楚。

9. 北大的人很不好用,人聪明,心气高,但不低下头干事;人大好使唤,不把自己看得很高。

10. 当老师是一件很奉献的事,因为老师太穷了,她后面就从人大老师去国企了。

11. 适应环境,但也要考虑自己的爱好,不要太强迫自己适应环境,要么组织要么自己出问题的。也不要频繁换工作。她不喜欢从一而终的工作,也不要频繁换工作。

12. 在金融领域的高层,是一群非常有个性,也非常有才的人,往往难以达成一致意见。组织中随和的人反而可能到留到最后。

13. 价值观:不要追求辉煌,要在乎长久——做人如此,投资如此。

14. 价值观:在困难中坚持,在危机中保全——自己如此,企业如此。

15. 当认为自己什么都能干、什么都可以干时,祸就埋下了——2019年海航陈峰语。

16. 平静的出生,平静的离去。

17. 《聪明的投资者》,《滚雪球》,中信出版社出了很多本。

18. 英文面试,很多海外部门。这也是展示自己的机会。

19. 到董事长面试的时候,专业、职业素养之类的都面完了,就和你拉家常一样:家里几口人、预期薪酬(自己要清楚定位)、有女朋友没、住哪儿。 帮助他们判断你以后会不会跳槽以及你对这份工作的认真程度。要诚实回答,但是可以投其所好地说,比如爱运动、规律。

背景

央企。

原中国华能集团华能资本服务有限公司董事长、党委书记。她是金融领域的专家型人物,毕业于中国人民大学财政金融学院,是九十年代的经济学博士。有着多年丰富的金融从业和企业管理经验。  在她退休之际,华能金融已成为管理13家机构、管理1.5万亿资产、当年利润达百亿元的金融集团。

华为专家马文龙(计算所毕业,包云岗为导师)分享云原生(把云当作操作系统,所有架构自己实现、存储计算状态分离,发展趋势是以内存为中心)的内容,问了两个问题:

  • 读博期间和工作期间研究内容差别大么?回复:计算所这边博一博二就出去实习或者做企业项目,差别不大;现在他们每周都会组织论文分享会(paper weakly),了解最新的内容。

  • 每个人都要对庞大的系统有所了解么?做出一点点创新会不会影响整体的架构?回复:各个部门各司其职,通过接口来合作;各个部件之间松耦合,难度没我想象中那么大。 还送了我一本书。

北大王选实验室邹磊讲知识图谱,这个东西融合了好几门学科(知识工程(符号主义、逻辑推断)、机器学习(连接主义、神经网络、自然语言处理)、数据库(底层架构)等),虽然大模型对这个领域造成了冲击,但是在垂直领域(金融等)还是有用处的。此外我还知道了google的搜索做得这么好,背后是建立了一个巨大的知识图谱。

计算所杰青蒋树强讲具身智能,他认为虽然现在大模型已经展现了通用人工智能的倾向,但是还处于发展初期。他的PPT做得很好,发的论文也用到了新的技术:图神经网络、因果推断等,但是也说明离真正在现实中让具身智能在机器人上实现是一个比较困难的事情。蒋树强老师是一位扎实的大佬。

老司机耿进财,博士面试技巧:

  • 别紧张

  • 英语口语有多好练多好,这是印象分

  • 你不需要真的有东西,只要看起来有点东西,表述完整、清晰、有逻辑性即可

读博忙不忙?

科研本来就不容易,度过寻找灵感的至暗时刻本身就是对智识与身心的极大考验。如果此时再把努力程度和道德责任联系在一起,给自己增加一些无形的压力,无异于让走钢丝的杂技演员再扛一担货物。

把科研作为一种生活方式,才能真正“可持续科研”——这就是属于科研工作者的长期主义。任何一个希望把思考科研问题作为终身事业,而不仅仅是无情压榨美好青春的研究者,都值得把人生的其他维度放在和科研本身同等重要的地位。这不是对于科研的倦怠,相反,在我看来这才是对于科研本身的至高尊重,因为我们已经从所能把握的最高尺度,即人的一生,来最大化自己的科研产出和影响力了。

文献阅读课程,向世明老师看来是把每个人的PPT都仔细看了,下面是他讲的一些要点:

  • 每个人都要会transformer,vit和detr(如何设计预测头)这两个搞会了其他就差不多了。

  • 开放世界是一个热点,搞清楚我们的目标是啥,放在脑子里去看文章。

  • 全天候的检测的话就要红外线,这个领域的特点是是弱特征,少样本,可能还要满足实时响应,轻量化的属性,要是回所后没啥感兴趣的方向,可以选这个,他也在做。

向世明论文写作

这是我总结的一些 中文科技论文(特别是学位论文)写作上要注意的地方:

(1)、要避免论文口语化,语句必须简洁。

(2)、前后逻辑不强,逻辑体现在句子内,在段落内以及在段落与段落之间。这一点在绪论一章里面要特别注意。

(3)、应用顿号的地方用了逗号。注意,中文里面同一非句子级排列主体是需要用顿号的。

(4)、一些变量没解释。

(5)、句子太长,没断句。

(6)、参考文献信息不全,以及格式不统一、不规范。另外,参考文献不得采用etal来省略作者,除非作者特别特别多。

(7)、“[81]提出了一种” 这种以文献编号作为主语的,绝对不允许。即使在英文里面,也不允许。

(8)、在写作的时候,不该断句的地方断句了,这也会造成论文写作质量下降。

(9)、增加句子简洁性和逻辑性的一个很好的办法是,举个例子,问自己这样的问题:“这句话目前由40个字构成,但我现在必须要将其减少到25个字,我应该怎么做?”。所以,不要用口语,不要因为篇幅要求而采用简单的文字堆叠式的罗列。关键在于:要在写作中体现逻辑。

(10)、第一次出现的英文简写,要写全其英文全部单词,无论它多么有名。

(11)、不要太多的 “我们”,能去掉的地方则尽量去掉。

(12)、例:“XX任务就是”, “就”字明显多余。

(13)、例:“具体是在”,这是口语。改为类似于这样的描述:  "具体地,在XX框架下”,或者 “技术上,XX”。

(14)、例:“这个变体”改为类似于这样的描述:“该变体 ”

(15)、如果论文中用了别人画的图,有主的一定要引用,不能确定是谁画的,就不要用。

(16)、图像都要高清,能矢量的地方尽量矢量。

(17)、不能有任何错别字。

《生物特征识别》

上课教师是孙哲南,讲了他们实验室的从1999年至今的一系列的虹膜识别的研究。 他们用了各种各样的方法(不仅仅是简单的深度学习,还有一系列经典数学理论),非常有内涵和前沿。对问题的深刻理解和挖掘、数学上用不同工具进行建模、新类型的传感器和算法的结合、实际部署到各种终端、应用于煤矿、监狱等实际场景值得学习。 孙老师应该是湖南人,英语有口音但是应该能够流利阅读英文(PPT都是英文的),是一位产学研结合得很好的、让人尊敬的学者。

曾大军谈科研

曾大军研究员强调了几个点:

  • 形式化建模很要功力的、要深刻理解问题然后将知识融入到建模中;如果问题是其他行业的,那就还要花大功夫了解该行业的基础知识

  • 学科交叉在AI应用中不可或缺

  • 决策智能是下一步热点方向

  • 好的、一流的工作:定义新的问题,此时数据集、套路都没确定

  • 脑子里装了1000篇文章才能把握住某个领域的未来发展方向

中科院自动化研究所博士的论文致谢

我走了很远的路,吃了很多的苦,才将这份博士学位论文送到你的面前。二十二载求学路,一路风雨泥泞,许多不容易。如梦一场,仿佛昨天一家人才团聚过。

出生在一个小山坳里,母亲在我十二岁时离家。父亲在家的日子不多,即便在我病得不能自己去医院的时候,也仅是留下勉強够治病的钱后又走了。我十七岁时,他因交通事故离世后,我哭得稀里糊涂,因为再得重病时没有谁来管我了。同年,和我住在一起的婆婆病放,真的无能为力。她照顾我十七年,下葬时却仅是一副薄薄的棺材。另一个家庭成员是老狗小花,为父亲和婆婆守过坟,后因我进城上高中而命不知何时何处所终。如兄长般的计算机启蒙老师邱浩没能看到我的大学录取通知书,对我照顾有加的师母也在不惑之前匆匆离开人世。每次回去看他们,这一座座坟茔都提示着生命的每一分钟都弥足珍贵。

人情冷暖,生离死别,固然让人痛苦与无奈,而贫穷则可能让人失去希望。家徒四壁,在煤油灯下写作业或者读书都是晚上最开心的事。如果下雨,保留节目就是用竹笋壳塞瓦缝防漏雨。高中之前的主要经济来源是夜里抓黄鳞、周末钓鱼、养小猪崽和出租水牛,那些年里,方圆十公里的水田和小河都被我用脚测量过无数次。被狗和蛇追,半夜落水,因蓄电瓶进水而摸黑逃回家中;学费没交,黄鳝却被父亲偷卖了,然后买了肉和酒,都是难以避免的事。

人后的苦尚且还能克服,人前的尊严却无比脆弱。上课的时候,因拖欠学费而经常被老师叫出教室约谈。雨天湿漉着上课,屁股后面说不定还是泥。夏天光着脚走在滚烫的路上。冬天穿着破旧衣服打着寒颤穿过那条长长的过道领作业本。这些都可能成为压垮骆驼的最后一根稻草。如果不是考试后常能从主席台领奖金,顺便能贴一墙奖状满足最后的虚荣心,我可能早已放弃。

身处命运的漩涡,耗尽心力去争取那些可能本就是稀松平常的东西,每次转折都显得那么的身不由己。幸运的是,命运到底还有一丝怜惜。进入高中后,学校免了全部学杂费,胡叔叔一家帮助解决了生活费。进入大学后,计算机终于成了我一生的事业与希望,胃溃疡和胃出血也终与我作别。

从家出发坐大巴需要两个半小时才能到县城,一直盼着走出大山。从矩光乡小学、大寅镇中学、仪陇县中学、绵阳市南山中学,到重庆的西南大学,再到中科院自动化所,我也记不清有多少次因为现实的压力而觉得自己快扛不下去了。这一路,信念很简单,把书念下去,然后走出去,不枉活一世。世事难料,未来注定还会面对更为复杂的局面。但因为有了这些点点滴滴,我已经有勇气和耐心面对任何困难和挑战。理想不伟大,只愿年过半百,归来仍是少年,希望还有机会重新认识这个世界,不辜负这一生吃过的苦。最后如果还能做出点让别人生活更美好的事,那这辈子就赚了。

互联网文章

5 您证明了两人博弈纳什均衡解的算法复杂度是 PPAD 的,您能讲讲那时候的故事吗?比如启发您的契机,以及遇到的困难和解决方法。

这个当时也是整个计算理论界里一个长久追求的问题。当时就是说从数学上,均衡计算最著名的就是不动点方法,市场均衡当初也是 Arrow 从不动点方法得到的一个最广泛的证明结果,Nash 和 Arrow 也都分别因为这两个结果得到了诺贝尔奖。那么 PPAD 呢,是建立在纳什均衡的一个叫做 Lemke-howson 的解法的结构上的计算等价类。 以前的分析都是想建立起来 PPAD 跟均衡、PPAD 跟不动点(的联系),但这两个直接的连接都有点困难。一个原因就是(均衡和不动点)这两个都是连续的问题,比如说 Lemke-howson 是对均衡的求解方案,不动点也可以这样求,但是它的不动点模型还是一个连续的模型。正好 2000 年左右的时候,有个日本人提出了一个用离散连续函数来定义不动点的方法,然后我和陈汐同学就开始对不动点的算法进行了一系列的研究,包括 oracle 模型和逻辑线路模型都做了研究。那么到此就是为 Two-Nash 的 PPAD 建立了离散不动点的基础。 然后 Nash 均衡跟 PPAD 的联系是另外有一个希腊人,就是我导师和我的师弟,建了一些联系,但是进一步的推动其实是在离散不动点上。那么我们后来主要的工作就是通过这两个联系推动了这件事情的最终证明。我们后面也借助不动点在比如说 mobius band 这种 non-orientable 的空间里面的概念,推动了另外一些概念——PPA 的研究范式。所以这里的工作其实是一个挺长期的思路,最后把这个东西打开了以后进展就非常快。

6 多智能体强化学习和传统的博弈论有什么关系,是否可以互相借鉴?

对,这两个东西确实可以给他一个对应。比如说强化学习直接来讲是优化的一个求解方法,优化也不是一般的优化,而是一种利用 potential function 的优化模式。那么比如围棋,这里面的 q function 就可以使用一个平面图上的 potential function 的构架,这样的话在平面图上的一个空间,如果能够设计的比较好的话,就可以降维到一个\(n^3\)的问题。 博弈本身其实是\(2^n\)的复杂性的问题,从计算角度来讲,我们只知道 \(2^n\) 的算法,一个挑战就是怎么样能够把指数计算降低到多项式计算。而多智能体强化学习通过 q function的设计,在比如二维空间三维空间这种我们能用手指头数出来的多项式的空间里,就能帮助我们对于博弈有一个很好的解决方案。 所以等于是强化学习对博弈的均衡计算里,这种特别是有 value function 构造的、有空间特性的一大类通常能见到的博弈问题,能够给出好的求解方法。

7 纳什均衡作为多智能体博弈的解有何优势和缺点?是否有更好的方式来衡量策略的优劣?

纳什均衡是说大家都去优化的时候,每个个体的优化到达的一个 fixed point——大家都不想动的时候,是吧。那么 correlated equilibrium 里面有个好处就是大家之间是 related 的,它想出一种方法、一种设计,使得大家能够 coordinate to each other,然后可以多项式求解。比如前面我们讲围棋,直觉上就可以用一个平面上的势函数帮助我们来求解这个问题,那么 correlated equilibrium 它又找到博弈双方的一种联系,是和 Alpha Go 不一样的一种把相关性建立起来的方法,使得计算能够简化,是一个很好的设计。 但是对不同问题,需要去发现它是个 correlated equilibrium,或者设计上面把它建成 correlated equilibrium,才能使博弈的求解得到简化。 而纳什均衡如果非要我说的话,我觉得是一个错误,因为他只考虑每一个个体的优化。其实博弈有很多合作的情况,比如合作博弈里面,大家之间会我帮你、你帮我;或者是进化博弈里面,大家慢慢形成某种合作的方式,觉得会有优势——像生物学进化、国家形成等这些其实都不能够用简单的纳什均衡来做到。 我把纳什均衡在这里解释为每个个体优化自己的目标,没有跟其他人合作的可能性,那么这种均衡在博弈论的整个框架上也是挺有局限性的。纳什均衡当时出现的时候,据说冯诺依曼认为它就是另外一个不动点定理,他跟 Morgenstern 写的那本书上也特别强调多人的合作博弈,但是那条线没有成长起来,就是计算上太复杂了,人类智慧有限,想不了那么复杂的事情。 所以解决这个问题,实际上重担落在了 AI 和计算机理论上。即使是现在,算法博弈论也是太局限了,比如说机制设计里面也是讨论个体的行为,当然有些新的领域现在也越来越多的会考虑群体行为层面。那么 AI 提供了一个很大的机会,就是说我们用机械化的方法能够算得更快的时候,怎么样可以不局限于纳什均衡,这也是一个挑战。

余金权:从农村少年到国际顶牛,他说“做科研就像钓鱼”

57岁的余金权顶着帅气的“爆炸头”、拿着一杯咖啡出现在街头。这个造型让他看起来像个摇滚歌手,实际上的他却是一位化学大牛。

余金权,这个名字与许多光环绑定在一起。他被视为当今世界C-H键活化领域“第一人”,当选英国皇家化学学会院士、美国艺术与科学学院院士;他是2016年美国跨领域最高奖——麦克阿瑟天才奖得主,被许多人称作“天才”“余神”;至少有3次,国际科学大奖在他年龄已经“超标”的情况下坚持把奖项授予他。

9月6日,美国Scripps研究所余金权团队在Nature上发表了最新成果。余金权作为通讯作者,拥有了他职业生涯中第11篇Nature论文。此外,他还有11篇Science论文。

对余金权而言,化学并不是立在他面前需要艰难跨越的一堵墙,而是仿佛能在手中轻松玩转的魔方。近日,《中国科学报》专访了这位以奇思妙想著称的华裔科学家,一探他为何能将科研做得如此“潇洒”。

手握22篇NS正刊论文!他本是想学医的“农村娃”,却成为化学家

《中国科学报》:您的发型给许多人留下了深刻印象,有人称您为“爆炸头化学家”,您为什么选这样一个发型?

余金权: 我是“自来卷”。大学时同学就注意到我有些卷发,而我当时并未注意到。读博后,头发变得越来越卷。我并没有刻意改变发型,只是如果理得太短,同事都很不习惯,觉得我不是原来的那个同事了。

《中国科学报》:作为C-H键活化领域最活跃的华人科学家,请用通俗易懂的方式介绍你的工作和你未来的研究计划。

余金权: 化学反应为现代化学工业、制药业和材料工业提供了关键的工具。要知道化学反应的起点是打断有机分子中的某一根键,而有机分子中含量最高的碳氢键(C-H键)具有很强的惰性,很难被打断。

我们试图解决的是两大根本难题:第一如何在温和条件下打断C-H键;第二,如何实现选择性的打断。

我们希望通过发现新反应来加速新药物的发现和生产,为人类健康提供帮助。目前我们也开始关注如何将C-H反应用于高分子材料和香料的工业生产。未来5年则主要是将已经发明的系列催化剂的活性提高10倍左右,以促进在工业上的大规模应用。

《中国科学报》:你什么时候决定走上化学的科研道路?你的初心是什么?

余金权: 在大学三年级时,我对合成分子和化学反应产生了浓厚兴趣,由此走上化学这条路;初心多少和我小时候想当医生,却未能如愿有关。

我是农村的,当时农村很苦,我想学医帮助别人。但后来很偶然地去了华东师范大学学化学,在大学三年级学到合成的时候,我非常喜欢。当时在图书馆里读到一本书,是E.J. Corey写的《逆向合成》,他后来得了诺贝尔奖,还成了我在哈佛的博士后导师。我读他的书觉得很有意思,并且意识到研制新药是化学家的事情,贡献不比医生小。我非常兴奋,就此走上了化学这条路。

《中国科学报》:能否分享一下硕博阶段的求学经历?

余金权: 本科毕业后,我报考了中国科学院上海有机化学研究所,但由于实验能力比较差,我被分配到了中国科学院广州化学研究所。

在广州读完硕士后,我想转换方向,去剑桥学习生物合成。在上世纪90年代的中国,生物合成还是一个全新领域,无人问津。但我当时翻阅了一些文献,非常想去学。通过申请考试,我很幸运获得了“中英友好奖学金”。这个奖学金的名额很少,有机化学方向只有我一个人。

刚到剑桥时,我就像个小学生,什么都不懂。之前我在国内学的是非常传统的催化,对复杂的有机分子合成训练很少。虽然基础知识比较扎实,但思维还是与剑桥这边脱节,后来才慢慢适应。幸运的是我碰到了导师J. B. Spencer,他对我帮助特别大。

《中国科学报》:你提到在剑桥读博时的导师J. B. Spencer,还有在哈佛做博后时的导师E.J. Corey,可否谈谈你和他们之间的故事?

余金权: 小时候在农村,我妈常说“出门遇贵人”。那时候总觉得很好笑。有什么贵人?不都是凭自己努力吗?后来我才发现她说的对,我几乎到每个地方都会遇见贵人,这两位导师就是我生命中亦师亦友的贵人。

我在剑桥遇到导师J. B. Spencer,他那时很年轻,我是他的第一个学生。我们的关系像兄弟,每个礼拜都要在一起吃饭喝酒。我遇到他是一种缘分,两个人相见恨晚,对彼此的思路、想法都非常认可。我们俩还提出“Spencer-Yu”理论,后来写进了教科书。我跟着他学了很多东西,包括英语表达能力、对西方文化的了解。但很遗憾,他40多岁时因事故去世。

后来我遇见E.J. Corey,那更是一个神奇的过程。我在剑桥时,E.J. Corey是哈佛大学的教授,来剑桥访问。我作为学生代表作了一个15分钟的简短报告,讲我的研究结果,以及我对科学的看法。讲完后,他非常喜欢我,马上请我出去吃饭,吃完饭后就让我去哈佛做博后。那时E.J. Corey已经70岁,得了诺贝尔奖3年了,而我是一个什么都不懂的学生,但我们建立了一种非常特殊的友谊。

到了哈佛后,E.J. Corey一直很支持我,他每天都来找我,坐在我的实验桌上和我聊天。现在他已经95岁了,我们还保持一个月通话一次。有时候还去他家里,他做饭给我吃,哈哈。

我的两位导师其实都是很内向的人,但他们和我很谈得来。可能是我的思维方式比较clueless,有点天马行空,他们觉得和我交流有意思。

《中国科学报》:在科研路上数十年,你有感到无力的时候吗?是什么驱动你继续走下去?

余金权: 在过去20年,每年都会有感到山穷水尽的时候。好奇心、求知欲和新发现带来的巨大惊喜是支撑我的主要力量。

《中国科学报》:你能用几个词来形容化学家吗?与其他领域科学家相比有什么不同的特质?

余金权: 首先,化学是实验性非常强的科学,因此化学家是实践家。从某种意义上看,我们更像是一群探险家,去发现未知,去用实验验证新想法。

另外,化学和人类生活的关联很密切,在做课题时,实用性是一个重要因素。所以化学家比较实际,考虑的问题往往都比较现实。

我的世界里没有“金科玉律”,只凭自己的奇思妙想

《中国科学报》:在媒体报道中,你被称作“天才”。你是如何看待这个称呼的?

余金权: 天才?哦,他们这么叫我可能有两个原因。一方面是我得了麦克阿瑟天才奖。另一方面,我得奖之前很多人也这么叫我,倒不是说我多聪明,因为我不是很聪明,读书不算很好。他们说我是天才,更多是说我跟别人思路不一样。我做实验的思路不是按部就班,而是凭想象力。我的想法有点天马行空,不局限于教科书或者现有的“金科玉律”。

《中国科学报》:请详细讲讲,你是如何在研究过程中发挥想象力的?

余金权: 我先讲一个极端的例子。如果你询问一个人的想法,他可以给你讲出来是参考了哪本教科书或哪本文献中的ABCD,才有了这个想法,这种就不是想象力。

想象力是什么呢?是你为解决一个问题而工作多年,穷尽不同的思考和尝试,然而都没有解决。忽然在某个不可预测的一天,一个想法突然出现在你的脑海里,你自己都不知它从何而来,是前天早晨想过吗?还是梦里想过?我把它叫作out of nowhere,就是不知道从哪里蹦出来。其实这样的想法建立在大量严密思考的基础上,是潜意识中长期冥思苦想的积累,只不过它出现时,你很难说清是从哪里来的。这样的想法才是真正的与众不同。

想要有这样的想法,就不能急功近利。什么是急功近利?就是我去查文献,看别人做了什么,别人做了A,我就改一改,把它改成B。这样固然能解决一些小问题,但绝不可能是重大的突破。

还有一种想象力,我把它叫作“他山之石”。你去听一个完全不同领域的人作报告,他做的东西看似与你无关,但其思维方式可能会间接启发你产生新想法。这也是一种非常重要的想象力。

《中国科学报》:你平时是怎么读文献的?会每天抽出固定时间读文献吗?

余金权: 这个我应该跟大部分人也不一样。我在刚进入新领域时,要花费大量时间去阅读文献,把握这个领域的状态,什么问题没解决,为什么没人解决这些问题。比如我20年前去剑桥学生物,后来从生物又跳回到有机合成,我都要通过文献去掌握新领域。

但是当我在某个领域工作很多年了,我就不会花很多时间读别人的文献,而是关注自己的创新。大部分的文献我不会去读,最多看个题目,就知道他们在做什么。我更多精力是在思考分析我自己做过的工作,哪些地方需要改进?我下一步的目标是什么?其他领域有哪些新技术可以借用?

很多人是被动的,为了发文章疲于奔命。别人发了文献,他就去读,然后根据别人的成果去想自己下一步的方向。其实做科研最从容、最潇洒的方法是你自己去发现别人都没问过的问题,建立一个领域,然后完善这个领域。

《中国科学报》:在你看来,做科研更多的是一个艰苦的过程,还是一个美妙的过程?

余金权: 两者都有,科学家需要毅力的支撑,也需要兴趣和乐趣。

其实做科研的过程就像钓鱼。如果你喜欢钓鱼,你在烈日、海滩待几小时都不觉得累。因为你真的喜欢,你好奇,你在等待那条鱼儿的出现。钓鱼需要一定的毅力,但驱使你去钓鱼的那股力量是不能通过毅力来产生的,一定是喜欢。

《中国科学报》:科学是一个极尽智慧和理性的事情,它是否同样也是浪漫的?请你谈谈。

余金权: 科学是智慧和理性的,但它也是浪漫的,甚至是艺术的。真正好的科学,在某种程度上都带有一些艺术性。

我有时候会看到一篇文章,发在很牛的期刊上,数据很好,也解决了问题。但我会觉得,这个文章就是很ugly,很丑,它解决问题的方法非常笨拙、机械,没有美感。有的论文你一看就觉得“太美了”,写得也美,布局也美,解决方法也美。所以科学论文也是有区别的。

科学家的浪漫当然和艺术家、音乐家不同,但也有很多浪漫的成分。比如当我产生一个想法时,我觉得它很漂亮,我就去做了。我没有用计算数学进行推导,没有用足够的理性方法证明它是对的。也许成功的可能性很小,但我愿意为之探索,这种情怀也是一种浪漫。

评奖的意义:是锦上添花,更是雪中送炭

《中国科学报》:除了麦克阿瑟天才奖,你还得过很多国际上的奖项,能否谈谈这几次得奖的经历?

余金权: 这几次得奖的经历都蛮有意思。

2012年,我得了日本的Mukaiyama奖,这其实是打破规则的,因为我年龄超出了限制。我甚至压根没有申报,但评委会突然决定给我这个奖。

2013年,以色列的雷蒙德物理科学和贝弗利萨克奖也比较特殊。它不像美国国内的一些常规奖项,比如美国化学会的一些奖,它是面向全世界的。对我来说,这个奖是一个很重要的认可,让我感觉在那么远的地方还有人认可我。这个奖我也超了年龄的限制。

2014年美国的E.J.Corey奖,是我导师创立并以他名字命名的,代表了在美国有机合成领域对中青年最高的一个认可。这个奖我也超了年龄的限制。

2016年的麦克阿瑟天才奖是最不一样的。别的奖是锦上添花,这个奖是雪中送炭。那时我提出了很多想法,却还没有做出来,这个奖给了我很多鼓励和信心,因为是一群不认识你的人在肯定你。当时他们突然给我打电话,我还以为是卖车的,就把电话挂了,后来他们通过别人找到了我。我认为这个奖是非常好的,请世界上的一个科学团队去挖掘谁是“天才”,然后支持他在某个重要的方向取得突破。

《中国科学报》:你认为科研评奖的意义是什么?

余金权: 刚才说了,有些奖是锦上添花,有些奖是雪中送炭,各有意义,当然我认为后者更有价值。

此外,评奖的过程本身也有价值。评审是一个锻炼思维、建立科学品位的过程。评审的过程就是从评委会到候选者,再到关注这个奖的人群都共同建立起对科学的鉴赏力。高水平的评审过程,可以促进国民的科学素质不断提升。

《中国科学报》:你如何看待当前对科技评价“唯期刊论”的批判?

余金权: 我觉得要客观看待。做基础科研是需要发高水平文章的,要与全世界分享你的想法,目前来看,发文章还是相对最客观的评价体系,不能盲目反对。

但是不排除一些情况,比如,投文章时受到不公正对待,审稿人就是不喜欢你的文章,或者他和你有竞争,就不想让你发。再比如,在顶级期刊上发的文章有可能毫无价值,因为任何期刊的审稿都会出错。

所以你要看文章的内容是否货真价实,有没有真正的含金量,还有就是看一个人长期的工作,而不是发了一次高水平期刊就证明他水平很高。

鬲融:您曾说“感觉最近机器学习这边热度很高,感觉整个领域都有一点浮躁”,基于此您对学弟学妹做科研有何建议?

现在申请者大部分起码都有一两篇论文,牛人四五篇甚至更多。人们发论文越来越多,由此造成的压力也越来越大。比如可能觉得有些什么想法就要赶紧写出来,而不是仔细考虑;或者选题时可能会顾虑这个项目短期是否能做出来。这些对于之后发展的并不是很有利。当然,这不是某个人的问题,也没有什么好的解决方案,现在环境如此。有些时候论文的发表也比较拼运气,感觉这方面对新人还是会造成一些困扰。我觉得我做的最好的工作是在博士后的时候,当时也完全没有想什么其它的因素,就遇见了一个自己感兴趣的问题。有时候很难预测什么样的研究有用,什么样的研究会有影响或有趣,但是如果在选题的时候就特别在意这个题能不能做出来,或者这方面压力太大的话,对后续或许不会有好的影响。

陈丹琦:您的博士论文这么受欢迎,您是如何挖掘到这些有趣、重要的问题呢?

所有的科研都是有一定契机的。包括我现在上课教论文的时候,不可能孤立地教授一篇论文,它一定是有铺垫的。我从12年开始读博,到今天为止,过去8、9年 AI 这个领域已经发生了天翻地覆的变化,有很多革命性的东西都在这些年出现。首先你要知道什么样的问题是最前沿的。然后真的需要一些契机,需要很多的思考,需要知道当前大家最关心的是什么问题,什么问题是重要的。当然除了契机,也需要对自己的领域有非常深刻的理解,以及一点运气和其他的东西,例如你做出东西之后如何跟人有效地交流,如何让你的工作被更多人知道,这个东西以后怎样让别人去跟进。这些都是需要充分的努力之后才能把你工作推出去的。

做的实验结果都很好,我知道写成论文一定能发,但是最后我自己选择没有投稿。因为我不知道这个实验结果到底能否真正的证明我们的方法有效,它到底是因为方法本身呢,而是因为不同语言的数据收集方式或者范式不同呢? 我不知道我能给我们领域带来什么新的视角。总之就在那一年,我特别挣扎,从那时候起,我开始思考,什么东西对我来说是我相信的且真正有用的。我想要找到能真正让我激动的问题,而不是为了去发论文,为了去追求一些论文数什么的而去做研究。所以第三年的时候就开始去想 reading comprehension 这个问题。那时候这个问题还不太存在,我们甚至不知道如何去定义它。

这是我的故事,总的来说,我想说的点是找问题是最关键的,而且是要你自己去找,不是别人告诉你哪个问题重要。不是你的老板告诉你做什么你就做什么。这对低年级的博士生可以,但是最终你要成长为一个独立的研究者,所以你发现问题的时间,可能比解决问题的时间要长得多。我最开始做 parsing 时完全不懂 parsing,因为这是我老板给我的项目。但是到我博士研究的后期,以及现在我对自己的学生,都要求他们必须要有自己寻找问题的能力。我想提一个人 Andrej Karpathy,他是李飞飞的学生,他­­有一个文章 《A Survival Guide to a PhD》,这篇文章写得好非常好,我向你们强烈推荐。

陈丹琦:对茶园学弟学妹的嘱咐

本科生的时候要先把基础打好,不用太追求发很多paper。把基础打牢,如果本科能有一个让你很高兴的工作就是很好的事情。此外,这个世界变化是很快的,你也无法预测这个领域接下来怎么发展,所以要尽可能多学,尽可能拓宽知识面。还有就是格局的问题,格局可能就是要接触更多的人,更多的事,你才能了解什么是最顶尖最前沿的,这个能力需要慢慢发展。我建议大家要尽可能去各个地方实习,接触不同的人,去了解他们的工作,去了解别人的思维模式和他们所在领域最关心的问题。只有通过广泛的交流才能找到自己的位置。我的合作者有很多不同国家背景的人,每个人的优势非常不一样,在跟他们合作中真的可以学到很多东西。太多中国学生抱团可能不是太好的一件事,你们的背景是相似的,所以上手合作可能更容易,更快,说话沟通的方式更简单,但是你们可能并不能扬长补短,因为你们的长处都相似。比如清华的学生可能编程和数学都比较好,大家的优势都比较相似。但是我认识很多以色列、欧洲的人,他们做 NLP 的风格都非常不一样。我觉得有一个文化背景更多元的群体还是更好的一件事。对于科研品味来说,不跟风是永远正确的。但是我知道在这个大环境下很难很难。因为现在太多人过于在意论文发表数目。比如说一年就2、3个ddl,相邻ddl之间就隔了3、4个月,如果你的目标是赶上下个ddl你能赶上,那么跟风是很难避免的。我觉得这是非常不好的,每个人都要找到自己心中那杆秤,怎么去平衡这件事情。我在 Stanford 读书的时候,我们被告诉的事情是读博士只需要有 3篇论文,这 3篇论文要求是连续递进的,能够铺垫一个领域,并且这些工作要能被人知道。但是现在一个本科生申请的时候,很可能就已经有 7、8 篇论文。然而这个现象是不会改变的:尤其是当你找教职工作时,或者被你领域里的人认识,一定是靠你的代表作,而不是你有多少篇论文。如果你只是跟风,做一些 incremental 的问题,这样的工作是很难被人知道的,尤其是在现在一年一两千篇论文的环境下。

马腾宇:理论机器学习的研究里面需要很多数学工具。

我们主要是逐步地发展数学工具,从一些已知的数工具,比如线性的系统,逐步发展到非线性,一点点地变得越来越复杂和更实际。至于对之前的已知的技术学习,我基本都是通过各种科研的项目积累出来的。每个项目都可能需要一些工具,就需要去找一些论文,然后再加上自己想一想, 在理解了已知的技术后,发展一些新的技术。

神经网络里面有不同的问题,比如有优化的问题,有泛化的问题,或者approximation theory的问题。还有刚才提到的把神经网络用在不同的场景上,比如说无监督学习或者强化学习。对于有些问题,工具会更成熟一点。比如对于泛化的问题,有一些统计学工具对非线性并不是很敏感(比如说集中不等式)。而一些其他问题的技术可能就很依赖于线性特点; 比如优化问题, 会受到一些技术的限制。不过现在也有一些进步了。

关注long-term impact主要是希望每个工作都能比较有质量、关注一些比较长期问题,而不是简单的写论文然后发表就大功告成了。即使论文关注的是一些比较技术性的问题,也希望这些技术有比较广的应用。从做科研的方法上来讲也类似,比如说在读博士的时候,多学一些技巧,多关注一些不一定直接用在科研项目上的一些技术。我在读博士的时候也做过挺多方向,有很多东西当时在学了之后,也没有直接发论文的,但是后来慢慢的在研究中,这些技术还是会用到的。当然,不一定说做的每件事情都能有长期的影响力,但至少这是一个值得努力的方向。

对科研或者学习的建议的话,我喜欢的方法是尽量把问题研究清楚,然后不要太急功近利,一知半解。尽管刚开始的时候可能会效率低很多,但是搞清楚了之后,很多事情就变简单了。

楼天城说他见到学术研究中也有很多人很聪明,竞赛中也是,在天赋上大家不会有太大的差别。楼天城表示自己并不天赋异禀,相反他说,当在一个群体中发现自己并没有天赋,那只有勤奋这条路。

楼天城最后想告诉学弟学妹 ”无论做学术还是做一些真正有意义的事情,人生发展是个积累的过程,积累这个词是很简单一个词,但其实蕴含很深意义。人生发展中不能期待任何所谓的峰回路转,所谓的奇遇,这些都是很难期许的。基本上99%的成功,都是通过日日夜夜的积累来完成,无论是学术能力,还是工业上的能力。”

吴佳俊大学三年保持全年级学分成绩第一;大三赴MIT交换期间,所有科目的等级均为A。他的成绩背后潜藏着“精益求精”四个字。吴佳俊的辅导员顾钊铨说道:“吴佳俊对自己的要求非常高,学习很努力。很多时候我去他们寝室,晚上12点过了他还没有回来,或者还在寝室里看书”。

“我只是比老师要求的多做一点,可选的作业和项目,都尽量去完成。提供的参考书目,尽量都去读。如果有可能的话,就再多读几本”。吴佳俊在学习和科研的路上时时要求自己“多做一点”。吴佳俊说他并不认为自己是特别聪明的人,就是尽量做好每一件事。“班上当时有些同学,尤其是有数学竞赛背景的,掌握新知识比我快。所以人各有所长,还是要扬长避短,发现自己的兴趣,找到自我的发展道路”。

关于尝试,吴佳俊强调“不是找更多的机会而是要有更开放的心态”。吴佳俊说对于大家认为的“多”,很多时候应该是串行进行,而不应该是并行,如果是并行的话往往结果会比较差。“你可以全心全意地尝试之后,发现自己不感兴趣,再做新的尝试。但如果尝试的时候就三心二意,那么你会很难知道自己是否真的感兴趣”。

吴佳俊鼓励大家应该好好尝试,把握前沿的研究机会。另外,吴佳俊嘱咐茶园学子们一定要重视表达的能力:“能够把自己想表达的东西用比较清晰明确简练的方式写出来、讲出来,这是很重要的能力。当然也包括英文沟通的能力”。

姚先生对同学们提出了两点寄语。其一,科学的领域丰富多姿,有许多有趣的问题,一个年轻科学家最初接触到牛刀小试的方向,不一定是最后做出最大贡献的方向,科研道路需要乐于尝试、累积经验,要勇敢接受新的挑战,走出一条最适合自己的道路;其二,跨学科交叉理论的发展是当今的研究趋势,期待同学们能够在其中找寻、探索充满挑战的问题。

张景昭提到毕业前后的心态变化,毕业之后的自由与选择。他表示,勇气与专注十分重要,勉励同学们去创造趋势而不是追随趋势。“诸多行业的未来就是由站在领域最前沿的研发人员决定的,而这种开拓又注定是艰难的、不确定的、长期默默无闻的。”他希望大家在迷茫时,不忘记自己所拥有的宝贵的专注和勇气,发挥自己的天赋,创造人生价值。

马腾宇鼓励学弟学妹们要对未知有着近乎疯狂的好奇,要有执着和反复的尝试,要有独立和深入的思考,也要有效的交流与合作。马腾宇认为清华人常有一种朴素的务实精神,又敢于和善于在方法上自我反思和革新。他相信,在清华园学会的独立自主判断和选择的能力,将永远是同学们进入未知领域的铠甲。

交叉研17班博士潘玲代表研究生毕业生发言。潘玲回顾五年的博士生涯,经过失败、拒稿和沮丧,但是也曾收获了成功、快乐和喜悦,完成了蜕变和成长。潘玲鼓励大家正视失败,不要在一次的失意中停滞不前,而是不断强化自己。她希望和大家一起推进计算机领域的发展,并肩负起时代的使命、中国科技发展的使命,为国家发展、民族复兴贡献自己的力量。

张景昭:清华交叉信息研究院理论机器学习方向博士生招生

我的主要研究方向包括优化算法分析,动态系统和控制理论研究,强化学习,online learning,泛化理论。 我关注由实际问题(CV, RL, NLP 等等)和实验出发的理论分析,并且希望能够用简洁的理论来拟合现实,进而简化现有的机器学习实验技巧。

我迫切希望能够与对如下问题有兴趣的同学们合作:

  1. 优化算法分析中的结论哪些与实际试验不符合?

  2. 深度学习中有哪些反直觉反数学的现象?

  3. 深度学习中哪些复杂训练流程和参数可以被理论指导简化?

  4. 机器学习理论与物理学定理有什么区别?

希望同学入学前可以对如下知识有熟悉的掌握

  1. 线性代数原理 (描述解释 spectral decomposition, jordan decomposition 等)

  2. 数学统计原理 (consistency, asymptotic convergence 等)

  3. 机器学习基础(SVM, MLP, random forest等经典方法)

  4. 编程入门 (完整利用pytorch或者tensorflow实现数据处理,神经网络搭建,模型训练,验证)

如下知识会对研究有一些帮助:

  1. 具体方向的domain knowledge (RL, online learning, optimization, high dimensional stats, unsupervised learning, transfer learning …)

  2. 完成过研究项目(不限领域),或者有发表文章

  3. 软件工程基础,了解计算机系统,数据结构

  4. 熟练应用数学分析,微分几何

我个人小组今年招生还是以机器学习理论为主(目前几乎可以被直接定义为分析样本复杂度和计算复杂度),这一方面更看重同学对于数学的兴趣和数学理论基础。实验方向如果有同学有迁移学习相关的科研发表经历,可能有额外名额,这一方面需要同学有较成熟的科研经历,研究项目可以直接上手。

今年我科研进展主要还是研究优化算法复杂度的不同定义。 但是我认为最新的理论应当是跨方向的,甚至是跨学科的。 所以我鼓励同学研究与机器学习理论研究相关的任何方向,希望你能找到自己觉得有趣的工作,也鼓励新的与已发表结果不同的思路。

招生方面标准每个老师不同。我自己比较看重同学能够看清自己的研究课题在整个学科中的位置,讲明白为什么要做这件事情,这个事情带来了什么新结果新思路,以及自己对于上述项目的评价是怎样的

我粗算了一下对机器学习(偏理论和方法论 不偏工程)大概30个技能点吧(可能增加)

每个点我分成 高中初 三个级别 即总共90分 为了方便理解 默认本科毕业送基础分10分 凑到100分

  1. 解题力:对于一个formulated problem 能写出正确的证明/发明高效的方法

  2. 课程完成:完成了足够的课程以支撑自己的研究以及毕业

  3. 文献阅读:每天阅读arxiv 每周保持10篇粗读 包括听talk

  4. 编程:熟练掌握至少一门编程语言

  5. 英语表达:熟练完整地进行日常对话 写作 阅读

  6. Latex使用:是能美观的展示公式 图片(如使用pdf而非png) cleveref/bib管理参考文献;设计paper poster slides等

  7. 自我驱动:能主动做所有开始了的研究 主动读paper 主动与合作者update 主动推进项目 偶尔赶进度能放弃娱乐

  8. 研究力:对于一个not well formulated problem 能想出对应的解决办法

  9. 搜集力:能快速准确找到自己需要的知识点或代码 切忌浪费时间重复劳动前人做过 或者用正确但过时的工具事倍功半

  10. 创新力:能创造一个新的方法或者框架解决问题 包括followup别人成果并改进

  11. 交叉力:能发现跨领域或者不同工具或者不同流派的交集 从而完成交叉类研究

  12. 洞察力: 能快速理清文献的思路并准确判断该文献的价值 或者挑出毛病甚至加以改进

  13. 写作力:能在文法正确的基础上写出清晰 有趣 有立意高度的论文 将研究价值最大化呈现

  14. 影响力:有别于写作 专指海报 演讲 主动联系外校或企业获得合作和展示机会

  15. 研究格局:注重研究的深度 专注痛点问题而非无关紧要的交叉概念涨点调参/做小改进

  16. 多样性:注重研究的广度 不局限于一个细分领域一种工具一类发表渠道

  17. 独立性:能独立完成研究教学演讲/写作等

  18. 时间管理:包括对课业 研究 审稿 助教 阅读文献 演讲 实习 合作者之间时间管理 不会错过deadline

  19. 精力管理:保持体重稳定 睡眠充足 不产生心理和精神问题

  20. 情绪管理:在面对拒稿、卡壳、被抢发等外力因素时保持平常心 不被负面情绪(如嫉妒 不甘)降低效率

  21. 恋爱关系:不因工作顺逆而影响自己的感情线 独身主义者自动满级

  22. 向上管理:能主动和导师或其他教授沟通研究idea 并适当催促对方改稿子批条子推荐机会 以及表达自己的合理诉求(如放假和换课题)

  23. 向下管理:能主动和学弟学妹们一起研究 带领他们保持效率 合理安排工作和分配credit

  24. 平级管理:能主动和一批优秀的同龄人以平等地合作关系共同推进项目

  25. 行政管理:和秘书高效完成会议预定财务报销毕业要求咨询等行政任务 也包括学会写grant proposal和组织seminar

  26. 项目规划:熟悉并掌控过完整的科研流程 能提出idea 写出初步证明或跑出初步实验效果 邀请合作者 掌控研究进度 并在合理时间内中稿

  27. 攻击力:审稿时能有理有据的指出别人研究中地错误并判断错误的大小 修稿时能有底气反击审稿人无理的建议(如要求引用无关文献)

  28. 防御力:在演讲或修稿时不被莫名其妙的提问打乱阵脚 不被deadline pressure/peer pressure等影响

  29. 人脉网络:构建完善的人脉网络 覆盖研究 生活 找工作等多方面

  30. 学术服务:完成TA(助教)审稿等学术义务

以我自己为例 我入学博士的时候是英国本科 大致上7+10=17分

英语表达(高级)编程(初级)解题力(中级)课程完成(初级)

博一(21分):

上数学系博士课和机器学习的入门课 并多次参加kaggle 第一次使用tensorflow

课程完成(初级)–>课程完成(中级)编程(初级)–>编程(中级)

但不会读paper 更不会写 找了几个做ML的老师结果都被拒了 试着了解了几个女生但没遇到合适的

获得 恋爱关系(初级)获得 Latex使用(初级)

博二上(31分):

刚开学遇到了我现在的导师 开始了第一个线性模型项目(用的R语言) 前两个月没有任何进展 但终于读懂了第一篇文献 这个项目虽然难 但难点集中 也有对标的work 所以路径相对清晰 做了三个月后有了初步的成果

获得 文献阅读(初级)获得 搜集力(初级)获得 研究力(初级)

此时有两个外校的AP加进来合作 整个证明快了很多 也第一次学会了pdf和png图片的区别 5月投NIPS中了 展示poster

Latex使用(初级)–>Latex使用(中级) 获得 自我驱动(初级) 获得 洞察力(初级) 获得 时间管理(初级) 获得 防御力(初级) 获得 人脉网络(初级) 获得 写作力(初级)

博二下(38分):

导师指导了一个差分隐私和深度学习交叉的项目 在学长的carry下 我主要负责编程(包括第一次用云计算)3个月写完 这是我进入的第二和第三个领域 这个文章算是根本上解决了深度学习中隐私accountant的问题 理论深效果好 我特别满意

获得 研究格局(初级) 获得 交叉力(初级) 获得 多样性(初级)

算上NIPS这一年参加了三次会议 包含了我的第一次poster和第一次talk 还学会了怎么报销和帮老师写了点grant的文书 加上带了宾大的暑校 以及完成了五年中唯一一年的TA义务

获得 影响力(初级) 获得 行政管理(初级) 获得 向上管理(初级) 获得 学术服务(初级)

博三上(46分):

继续做第一个项目的另一个角度 没想到遇到了特别大的困难 写了一年才写完 临发表发现了错误 重新写 总共花了两年到博四末才做完 中途导师都想放弃了 期间迷茫痛苦不足为外人道

研究力(初级)–>研究力(中级) 获得 情绪管理(初级)

虽然主线任务非常不顺 但是支线任务还是没少做 最重要的就是遇到了现在的女友 都有学术心 一直互相学习到现在

恋爱关系(初级)–>恋爱关系(中级)

自己在没有导师的情况下还带了其他同学做了几篇followup和交叉工具的paper (这些work的发表要到博四开学)

获得 独立性(初级) 自我驱动(初级) –>自我驱动(中级) 获得 项目规划(初级) 获得 向下管理(初级) 获得 平级管理(初级)

博三下(60分):

和导师提出了一类模型的新结构 学习了neural tangent kernel这个新工具 也被导师和同学在另一个课题上带着中了NIPS spotlight 也就是说 这一段时间我同时在和多个合作者做至少5个项目。。。

交叉力(初级)–>交叉力(中级)写作力(初级)–>写作力(中级)时间管理(初级)–>时间管理(中级)获得 精力管理(初级)多样性(初级)–>多样性(中级)Latex使用(中级)–>Latex使用(高级)

在博三结束的暑假 我做了第一份实习 MSR总部的算法组 继续研究深度学习和差分隐私 解决隐私算法的重要问题(以前只考虑privacy和accuracy 通过实习才关注memory和speed等现实要素) 而且偏向方法上而非理论上的创新 需要手写所有的optimizer

期间完成论文两篇 已发表ICML

研究格局(初级)–>研究格局(中级) 编程(中级)–>编程(高级) 搜集力(初级)–>搜集力(中级) 获得 创新力(初级) 人脉网络(初级)–>人脉网络(中级)

至此 我已经上完了学校所有我需要的机器学习统计数学课 并主动约导师把oral exam过了 不再上课

向上管理(初级)–>向上管理(中级) 课程完成(中级)–>课程完成(高级)

由于美国疫情开始 几乎断绝了传统的信息获取渠道(学术会议, reading group, lecture)我开始订阅各种校外seminar(尤其是one world系列)并且开始每天扫完当天arxiv新增文章(统计+ML大概130篇/日)

文献阅读(初级)–>文献阅读(中级)

博四上(74分):

博三耕耘的多个无导师的项目们都完成了 中了三篇AISTATS (因为统计要素较大 而ML顶会不太懂inference) 其中一篇槽点无法忍 某个小学生审稿人说我研究的问题和概念都是自创的 我气的直接在rebuttal骂他没有资格审稿 甩wikipedia链接告诉他这些概念有多基础 最后他改分让我中了同年 我也第一次当审稿人 就是AISTATS 还第一次当了期刊审稿人

获得 攻击力(初级)交叉力(中级)–>交叉力(高级)防御力(初级)–>防御力(中级)洞察力(初级)–>洞察力(中级)学术服务(初级)–>学术服务(中级)独立性(初级)–>独立性(中级)时间管理(中级)–>时间管理(高级) 精力管理(初级)–>精力管理(中级) 向下管理(初级)–>向下管理(中级) 平级管理(初级)–>平级管理(中级) 项目规划(初级)–>项目规划(中级)

和女友相处一周年 感情很好

恋爱关系(中级)–>恋爱关系(高级)

迟到了一年的报销催下来了

行政管理(初级)–>行政管理(中级)

和MSR、Baidu、Huawei研究部门高管保持联络 给些talk 偶尔写技术博客

影响力(初级)–>影响力(中级)

博四下(87分): 困扰我多年的第二个项目终于做完了 在我导师和合作者们神助攻下 用崭新的要素做出了很好的结果 在投统计第一期刊 AOS;另外有一个很满意的work 我独立给出了某个重要问题的training dynamics分析 并且大幅改进收敛性质

目前我的研究范围包括:高维线性模型;隐私模型;深度学习理论(主要NTK);优化算法;可解释模型;贝叶斯模型;missing value imputation

解题力(中级)–>解题力(高级)研究力(中级)–>研究力(高级)写作力(中级)–>写作力(高级)创新力(初级)–>创新力(中级)独立性(中级)–>独立性(高级)自我驱动(中级)–>自我驱动(高级)多样性(中级)–>多样性(高级)情绪管理(初级)–>情绪管理(中级)

保持着每天扫完arxiv新增文章标题以及扫完ICLRNIPSICML所有文章标题(一年3000+篇)的习惯 广泛撒网 重点捞鱼

文献阅读(中级)–>文献阅读(高级) 搜集力(中级)–>搜集力(高级) 洞察力(中级)–>洞察力(高级)

当ICML和NIPS审稿人 以及宾大暑校

攻击力(初级)–>攻击力(中级) 学术服务(中级)–>学术服务(高级)

博五上(97分):

隐私模型这一块在多方面做到了SOTA 包括计算效率(一样的速度下比Facebook库省了上百倍内存 一样内存下比Google快了上百倍)隐私刻画(给出了第一批tight bound中的一个 现在是业界benchmark)隐私优化器(提出了一类截然不同的优化器设计思想而且大幅改进convergence)

大厂全都听过我的talk了 也因此又拿到了几个实习 暑假先去百度西雅图研究院 秋季学期中在Amazon AWS AI lab又做了一次实习 给了return offer

创新力(中级)–>创新力(高级) 影响力(中级)–>影响力(高级)

开学后边做实习边和同学做研究边刷代码找full time research scientist工作 拿了十几个offer

精力管理(中级)–>精力管理(高级)

尤其是现在独立带同学和学弟学妹合作非常愉快 同时做8个无导师项目也hold得住

项目规划(中级)–>项目规划(高级) 向下管理(中级)–>向下管理(高级) 平级管理(中级)–>平级管理(高级)

当更多审稿人 ICLRAAAINIPSICMLAISTATS等等

攻击力(中级)–>攻击力(高级)

毕业论文搞得很狼狈 宾大的要求是答辩前14天就要把毕业论文准备好发给committee 我本身就是在宾大允许的答辩最后一天答辩 没注意这个时间点 差点就要延毕一个学期 幸亏老板提醒 花了两天从零开始肝完毕业论文 安排答辩时间地点和所有表格 答辩顺利通过 谢谢导师们!(其实我是超出了宾大thesis deposit deadline的。。。)

向上管理(中级)–>向上管理(高级) 行政管理(中级)–>行政管理(高级)

还有一件事在整个秋季学期也一直耗我的精力 就是我投AOS的第一个项目拿到了revision 为了求稳我们用3个月写了8页的response 再次提升了我写作能力 虽然我以顶会为主 之后我有信心可以独立投顶刊了

防御力(中级)–>防御力(高级)

解释一下为何研究格局和人脉网络我觉得做的不是很好 主要原因是我没有做过特别宏大或者爆款的文章(Nature级或者单篇citation 500+)这方面从我跟超新星导师而不是成名大牛有关系 跟我处在这一波深度学习时代末期也有关系 好在依然在做前沿研究 两三年内肯定会满足这个小小的遗憾

因为提前毕业就没有博五下了 更新一下毕业后近况:和恋爱两年的女友结婚了 以及去业界做 senior research scientist了

总的来说还是挺开心的日子 我比较工作狂吧 知足了 这已是圆满

Last but not least 我的博士生涯TM的有塞尔达荒野之息啊 呀哈哈!毕业后就等着荒野之息2哈哈!

降低期望 小步快跑 做学术的最想做的是什么样的paper 百分之一百是(1)有超前的新意(2)直接挂钩应用(3)扎实的理论支撑(4)能很快获得同行的认可(5)发表在很好的渠道获得广泛的影响

但是如果你想要靠一篇文章完成以上所有点 这是极度不现实的 也不可能有足够的正反馈 因为心里期望阈值调太高了

正反馈对于博士生至关重要 所以如果心里真的难受 不妨暂时放下期望 投简单的期刊会议 审稿的越快越好 中稿率越高越好 开会的地点越远越好

我有段时间科研简直快乐到可耻 机器学习领域一篇文章可以快乐六次

写完放arxiv一次 投workshop一次(目前icml/nips/iclr 100%中只要4页)投中会议一次 中期刊一次(需要扩充至少30%新内容)宣讲至少一次 被cite又一次

这样的做法 并非水paper 而是把漫长的科研阶段性收割胜果

心力不憔悴者 当钻研攻坚矢志不渝 自我怀疑抑郁者 不妨一水

绝对不要放弃信心和生命是读博唯一的铁律

这个得分几部分说,一名研究生一般都会面临入门、做事和讲故事三个步骤的工作。

那入门其实就是看文献,想idea的一个过程,这个过程需要两个核心的能力:

一、Learning ability

这个其实包含了很多东西,比如,最基本的,你的英语水平,因为我们知道现在基本好点的论文都是英文的,而你只有去读这些英文的论文才能走在相关领域的前列,所以,你多久可以看一篇英文论文决定了learning ability的上限,一般来说,不管你智商再高,如果英文阅读速度慢,时间长了也会和别人拉开质的差距,比如,有人1个小时一篇,一天8-10篇,你一天才能磨磨唧唧看完1篇,那你从起跑就已经输了。 其次,这个learning ability还包括一个人的学习能力,就像你在大学里学习中文课程一样,有的人老师讲了就会,有的人下来琢磨半天还是不懂,有的看一遍就记住,有的看十遍还是记不住,有的公式瞅一眼就知道含义,有的即使把每个项代表什么告诉他他也不太理解,有的人每天都和实验室小伙伴catch up大家最新的科研见解,有的人一到这种场合就变成了透明人也不懂得怎么去从别人的方向中找寻自己的契机,类似这些都是learning ability的区别。

二、Creating ability

在你吸收了很多前人的知识之后,作为一名研究生,就需要在前人的基础上去创新了,你能不能将现有的前沿成果组织起来,准确找到其中的漏洞或者机会,来构建你自己的idea,这个是入门的科研新手需要去突破的很大问题,当然,一开始的idea可能不会很好,那你能不能在发现其问题后根据你的知识储备对其改进,能不能在一个差的idea的基础上通过实验验证观察和理论推导衍生出一个更高级的idea,能不能在一个idea其中某个细节发现不对的时候,通过修正这个细节来弥补它,这些都是creating ability的体现。如果你能做到上面两点,那恭喜你,你已经非常有成为一名有潜力的研究生的潜质啦,剩下的,大部分不在于你的天赋,而在于你的努力,当然,会努力有时候也是一种天赋和后天培养的结合。

关于做事部分:

一、Being persistent

做科研是一份十分苦逼的活儿,你在决定之前可以问问你自己有没有准备好,其最大的挑战在于所有科研的收获都有延迟满足的现象,而且,这个延迟的时间不一定,有几天几个月的,也有几年几十年的,比如,当你要验证一个东西,你一开始想到一个验证方式,验证了一周之后发现这个方式根本就是错的,现在你需要换一个,直到你换到第十种的时候你发现这个方式可以,然而,计算软件(实验设备)又被别人抢先用了,你必须再等两周,等了两周之后,可能实验设备又出故障了,自己维修一周,种种不一而足,当你最后把这个东西验证出来之后,可能早已没有一开始想出idea那时的兴奋劲儿了,而且,这还是能验证出来的情况,极有可能这个东西是验证不出来的,那你又需要另一个idea,根据我见过的,大概5-10个idea能最终产出为一份有意义的科研成果转化率就算不错了。

二、Being careful

基本所有的实验或者理论工作都需要有一个比较细致的工作计划,这个计划细致到你每天要干什么,怎么干,你可以不用写下来,但是记得一定要细心地完成它,因为对于科研工作来说,可能一个小小的细节就会导致最终完全不一样的现象/结论,从而导致实验失败而浪费之前长期的准备工作时间,比如,你今天制样忘记加一个很重要的前驱体,那很可能等你发现制样失败已经是在你多次重复试验重复不出来的时候了,这样你起码会浪费2-3天甚至更多的时间,研究生时间本来就非常宝贵,所以要记得一定要细心地去做,而且要细心地观察现象,有的时候,新的idea可能就在你无数失败的实验里,所以,有时候说,这个世界上不存在失败的实验,只存在不合格的研究者。

三、Being Patient

有的idea,可能有多种不同的验证方式,或者有的样品,可能有多种的用途,比如,样品效果不好,那这种样品对机理研究会不会有贡献,核算一下成本和效益的关系,会不会其实它更加便宜,我见过许多人随便试一下这个样品不行就慌忙地要开始下一个样品,Calm down朋友,你要想,你制备这个样品可能已经花了一周的时间,多花半天时间去想想它还有没有别的用途为科学的进步作出贡献,往往这种条条大路通罗马的情况是很多的,这样比你多花一周时间去制备另一个样品还不确定它是否有效要好得多,不然你可能整个研究生都在奔忙,最后问你做了什么,你却说所有的东西都失败了。

最后,说说讲故事的部分,也就是展现你的研究成果,不论你是写sci论文,会议论文,专利甚至ppt,你如果不分享你的研究成果,那也无法为科技进步作出贡献,所以,怎么将你的成功展现给大众,也是一名研究生研究潜力的体现:

一、Being professional

首先,你才是本领域的专家,所以你懂得肯定要比别人多,这个时候,你必须展现出你专业的一面,才能使大家信服,去深究你做的这个东西,从而对它们今后的研究产生益处。

二、Being understandable

通过通俗易懂的语言,精确、简洁地把你的成果展现出来,这样首先可以保证你展现出来的东西并没有浪费大家多余的时间去克服复杂语言所带来的的阅读障碍,其次,也可以让一些刚刚入门本领域的人更快地理解你的成果。

三、Being attractive

其实说白了,展现研究成果就是一个讲故事的过程,同样一个故事有多种不同的讲述方式,怎么讲述才能最吸引你的听众和读者,选取最好的讲述方式,才能有利于你的成果更快更广地被传播出去。如果你能做到上面这些,你不一定是一名优秀的研究生,因为可能很多领域的研究需要很高的天赋,但是,你应该是合格啦。

如果你的亲人是普通阶层,那对于人生中一些大事来说,他们给的建议往往就是普通阶层的思维,他们的阶层就是他们一生思维决策的结果,如果你的目标是跳出本阶层,那最好只把他们的建议当成参考。

很多人喜欢不停的做事,但不会停下来思考,缺乏总结复盘的能力,其实阶段性总结复盘,不仅能够固化前面的经验,也能梳理后面的方向;把事情做对很重要,但是更重要的是做对的事;另外不要贪快,方向正确慢就是快

后来我每遇到一个质量问题,无论多忙最后定要写一份总结分析报告,这成了我一个技术习惯,也为后来我升任软件开发组长奠定了技术影响基础。

强烈建议技术团队定期开展质量回溯,需要文档化,还要当面讲解,深入的技术回溯有助于增加团队技术交流活跃度,同时提升团队技术积淀,是提升产品质量,打造优秀团队的有效方法。

一天我在菜市场买菜,有人给我一张传单,本来对于这样的传单我一般是直接扔掉的,但是当天鬼死神差我看了一眼,只见传单上写着“嘉善高铁房,紧邻上海1.5w”。 我当时就石化了,我记得去年我研究上海房价的时候,曾经在网站上看到过嘉善的房价,我清楚的记得是5-6k,我突然意识到我是不是错过了什么机会,反思一下:

工作生活中尽量保持好奇心,不要对什么的持怀疑态度,很多机会就隐藏在不起眼的细节中,比如二十年前有人告诉你未来可以在网上购物,有人告诉你未来可以用手机支付,你先别把他直接归为骗子,静下来想一想,凡事要有好奇心,但是要有自己的判断。

于是我立马飞奔回家,开始分析,大城市周边的房价。我分析了昆山,燕郊,东莞,我发现燕郊极其特殊,几乎没有产业,纯粹是承接大城市人口溢出,因此房价成高度波动。而昆山和东莞,由于自身有产业支撑,又紧邻大城市,因此房价稳定上涨。我和妻子一商量,开始了外地看房之旅,后来我们去了嘉善,觉得没有产业支撑,昆山限购,我们又到嘉兴看房,我发现嘉兴房价也涨了很多,但是这里购房的大多数新房,都是上海购房者,入住率比较低,很多都是打算买给父母住的,但是实际情况是父母几乎不在里面住,我觉得这里买房不妥,存在一个变现的问题。于是我开始继续寻找,一天我看着杭州湾的地图,突然想到,杭州湾北侧不行,那南侧呢?南侧绍兴,宁波经济不是更达吗。于是我们目光投向绍兴,看了一个月后,最后在绍兴紧贴杭州的一个区,购买了一套小房子,后来17年房价果然如我预料的那样完成中心城市的上涨之后开始带动三四线城市上涨。后来国家出台了大湾区政策,我对我的小房子更有信心了。

我从 2013 年打算法竞赛,2016 年在北京大学上本科,17 年后在旷视研究院做一些 AI 相关的研究至今。

入门总是困难的,而且很多知识,别人的学习过程也很难效仿,某些开悟的体验更是无法言说,我这里不讨论某一种具体的技术应该如何学习 我觉得最难的一件事,就是决定要干什么不干什么,要把时间投入在哪?这是一个投入产出比的计算问题,同时还是一个信息掌握程度提高的问题。

我总结了几个我觉得比较好用的想法:

(一)抓大放小,或者叫抓主要矛盾。比如说要在某门课程取得高分,究竟是花时间做大作业,还是好好准备期末考试?比如说要提高编程能力,是死磕几道难题,还是看看编程书,还是看看别人的博客?不可能所有事情都做完,总有重要的事情和不重要的事情。

特别是当各种事情进展不顺利的时候,更要想想主要矛盾是什么,就像互联网话术里面说的,“这件事的抓手在哪?“ 绩点差是什么类型的课程耽误了呢,还是平时分丢多了?竞赛成绩差是什么样的题型没做好,还是训练没做好?

(二)找找比较优势。比较优势是微观经济学里的一个重要理论,我觉得挺能指导路线选择的。我们或早或晚地会意识到,总有一些事情,我们倾尽所能也不及大佬随手一做,所谓人和人的差距,比人和狗还大。比如说我们竞赛圈的偶像陈立杰大佬,他投身了理论计算机科学领域,我就觉得如果我和他一起工作,我可能非常努力也只能是他的百分之一产出。

那怎么办呢?我的想法就是找到自己的比较优势,即找到那些我们和大佬差距最小的领域去发挥自己的作用。而且当真正认识到自己的“比较优势”时,形成正反馈的速度就会比较快。

也有很多人的比较优势来源于爱好,也是一种很好的状态,把技术和爱好联系在一起,往往能有出乎意料的成就。

(三)多学前人经验。我高中的竞赛学习历程比较奇特,我照原样把一个大佬的做题记录刷了一遍,果不其然我也达到了不错的水平。当然这种机缘巧合的事情比较少,但我觉得看一看比自己高几届的学长学姐在做什么,业界的大佬又在做什么,去找他们聊聊肯定非常受益。

(四)尽早给自己建立正反馈。正反馈可能有很多类型,比如刷高绩点得到奖学金,写个项目有很多人关注,或者说融入个群体共同做事。问问自己想要什么,去尽早做一些这样的事情,有助于在遇到挫折的时候有一种底层的自信。

甚至说正反馈的方式未必要和主业,和计算机专业有什么关系,重要的是相信自己的能力,并且向着更高的追求去进步。比如培养一些不错的爱好,游戏上分什么的都挺好的。

(五)以终为始。实在不知道自己该做什么才是对的,就好好想想有什么事情,做成了自己会开心?有很多成功学的教程都有这个概念,提前写个明年的年终总结,也许就知道当下该做什么。

最后是一点鸡汤,就是我还挺相信积累的力量。一方面是原来看不懂的工程和理论,放一段时间就莫名其妙看懂了。特别是编程很多时候像是一门磨时间的手艺功夫。把一件事情坚持做多年以后,它好像总是会以出乎意料的好的方向去发展。如一个大佬告诉我的,“所有工作,做到最后都会有好结果”。

学习阶段如果时常想想这些,我觉得应该会有帮助。

2017年度的计算机领域最高奖“图灵奖”终于揭晓——斯坦福大学的约翰●轩尼诗(John Hennessy)教授与加州大学大卫●帕特森(David Patterson)教授由于为设计更快、更低功耗以及精简指令集(RISC)微处理器创建了一套系统的、量化的方法而获此殊荣,这也是计算机体系结构领域第五次获得图灵奖。相比于前几位图灵奖得主或是家庭显赫或是出身名校,今年的两位图灵奖得主的人生轨迹更似“寒门出贵子”。轩尼诗出生于一个工程师家庭,本科就读于很多人并不了解的维拉诺瓦大学,博士毕业于纽约大学石溪分校;而帕特森则是家族的第一位大学生,本硕博均毕业于加州大学洛杉矶分校。

一、超前教育

主持人:你们上大学时很多学校还没有计算机专业,怎么会选择这个方向?

轩尼诗:“我的父亲是一位工程师,他让我对计算机产生了好感。但我真正对计算机感兴趣是高中时在一台分时共享的机器上用纸带编程的经历。然后,我和一位好朋友一起参加高中科学项目——设计一台tic-tac-toe机器。我们使用了决策树,不是很难。但人们看到这台机器能战胜他们时还是很吃惊……我高中时就会一点Fortran编程了。但那时大学还没有计算机专业,我就选择电子工程,但我会计算机兴趣越来越浓。”

帕特森:“我是我们家里第一个大学毕业生。那时我们高中开了大学数学预修课,我记得自己上了一门微积分课。我在UCLA上本科,选了数学专业。大三时有一门数学课取消了,所以我只能选一门计算机的课来算学分。那时我知道什么是计算机,但其实我并不感兴趣。我想是那门课让我对计算机产生了兴趣。”

场外音:高中时代就学习编程、学习微积分,这不正是被很多国人诟病的“超前教育”嘛?而从两位图灵奖得主的回答中,我们可以了解到1960年代的美国高中教育不管是在教学理念上还是在知识结构上,都是相当领先。可见,超前教育正是发现和选拔人才的有效方式。

二、成家立业

主持人:请两位谈谈你们是怎么认识另一半的?

帕特森:“我和太太是12岁认识,16岁开始约会,19岁结婚,21岁生了第一个孩子” ,“我想家庭的点点滴滴是我最骄傲的时刻,这一点毫无疑问。不过,这一路过来并不容易。第一个孩子出生时,我就觉得经济上有些麻烦了,老二出生时,我感到强烈的经济危机了。心想,嗨,我要变成一个真正的男人了,要养家糊口了。”

轩尼诗:“我赢得太太芳心靠的是努力工作和科学知识。17岁时,我放学后在一家食品杂货店打工当库员,盯上了也在店里打工的17岁收银员女孩。”

轩尼诗太太:“(我记得)第一次约会是在高三。他拿了tic-tac-toe机器到我家,给我妈留下了深刻印象。”

场外音:幸福美满的家庭是成功事业的基石——1966年,帕特森与太太结婚,如今已过金婚之年;1974年,轩尼诗和太太在22岁那年举行了婚礼,今年是他们结婚44周年。浪漫而忠贞的爱情陪伴了他们一生,令人羡慕不已。他们的成功离不开两位太太一生的支持。

三、最好的学生选择学术界

主持人:你们在博士毕业后为什么会选择留在学术界?

帕特森:“我太太起了非常重要的作用。当时我拿到了贝尔实验室和伯克利的聘书。我问太太,‘我们在学校宿舍住了很久,经济上也很紧张。你是不是想让我去公司好先买房?’她问道:‘如果你现在拒绝伯克利,先去公司,那以后你想改变主意还能再回伯克利吗?’我说:‘哦,这个不太可能’。‘那如果你先去伯克利,然后再想跳到公司呢?’‘这个还是很容易的。’她说:“那好,去伯克利!我们会穷一些,但很骄傲。’”

轩尼诗:“我从一开始就决定去学术界,所以只参加了大学的面试。实际上,斯坦福是我面试的第14所大学。”

场外音:帕特森在1976年加入了伯克利,一呆就是40年,一直到2016年退休。轩尼诗在1977年加入了斯坦福,到现在也有41年了。他们都很享受在学术界教书育人、与学生们一起开展研究的生活。他们显然是当时最好的一批学生,也都选择了学术界,这种选择背后体现了社会价值观的导向。

四、好的研究品味

主持人:你们认为什么是好的研究?如今计算机领域论文越来越多,你们怎么看?

帕特森:“现在计算机领域论文发表状况令人担忧。当你看到刚毕业的博士就发表了几十篇论文,给人感觉就像是大量最小可发表单元(least publishable unit,LPU)的堆积,重数量而轻质量” 研究的目标应该是追求影响力,去改变人们开展计算机科学研究与工程设计的方式。论文数量是学术界槽糕的评价指标,我推崇理查德·海明(Richard Hamming)的观点——解决重要的问题!” 可以用研究项目来评价。当然,“应该是完成了多少个项目,而不是启动了多少个项目”

轩尼诗:“(其实)在学术界很容易判断(研究价值):告诉我你最重要的5-6篇论文是什么?我们应该摒弃唯论文数量。一个人真正做成了什么?最终还在于影响力。看他们对工业界产生了什么影响,对其他研究人员产生了什么影响。 这才是评价教授们的研究工作时真正应该关心的。”

场外音:由此看来,“重数量而轻质量”并不是国内学术界特有,这在国际上也是同样存在的现象。这引起帕特森与轩尼诗的担忧,因为与他们那个年代的研究氛围相比,今天的学术论文通货膨胀现象已经非常严重。表1是他们职业生涯早期的论文发表情况,其中1980-1985年正是他们开展RISC和MIPS处理器研究的黄金时期。轩尼诗在1982年有一个高峰,这是因为他加入斯坦福6年工作的积累。同年,他启动了MIPS项目,此后三年论文数又回归到1-3篇的正常状态。可以看到他们在职业生涯早期平均每年只发表约2篇论文,但这段时期的成果却获得了图灵奖。对比其亲身经历,这也难怪他们会对当前追求论文数量的现状表示担忧。如何培养好的研究品味,值得每一位年轻科研人员思考。

五、与工业界密切联系

主持人:我发现你们都做了很多和工业界有关的项目,轩尼诗教授甚至还亲自创办了MIPS公司。请问你们是如何看待学术界与工业界之间的关系?

轩尼诗:“在斯坦福有这样一种信条——和工业界的互动,不管是咨询还是其他角色,都是非常有价值的事。这不仅可以让大学对工业界产生更大的影响力,也可以让教授们对研究有更好的理解与洞察。我想这个信条是千真万确的。你想,班上的学生大多数其实不会留在学术界,即使是研究生,大多数都会去工业界。教授们当然要讲授那些经典的基本原理,但理解甚至经历过如何应用这些原理,则会给教授们带来不可思议的价值。”

帕特森:“我们是做体系结构的,有产业基础,我觉得这很关键。我们有想法,就能找到地方去试验这些想法。所以不断和工业界互动就很重要,一方面当你觉得有好想法时他们可以来检验你的想法,另一方面,他们会帮你发现研究问题,帮你确定一个问题是否重要。有趣的问题很多,但它们又有多重要呢?所以我总是在和工业界互动中判定一个问题重要还是不重要” 此外与工业界交流对学生也有帮助,“应该多给学生机会让他们向工业界专家做报告、介绍海报,多跟工业界互动”

场外音:只有更深入地了解企业,研究人员才能获取真正的产业前沿需求,才能做出真正有价值、有影响力的研究工作,才能赢得企业的信任与尊重。近年来,国内的学术界与产业界之间的合作已经打开了局面。假以时日,相信中国必然会涌现出越来越多的高水平研究工作。

六、好教材成就影响力

主持人:你们合著的《计算机体系结构:量化研究方法》被称为是体系结构界的圣经,为什么会想到写书?

轩尼诗:“因为做了MIPS后,我一直被迫努力地去思考RISC到底是怎么工作的、它的优势到底是什么。这让我们产生想写一本书来量化解释计算机体系结构的念头。当然,这也让我做出了一些其他贡献” 写出一本好书的影响力会令人不可思议,“有一次我走过清华大学一个研究实验室的走廊,我太太指着一本书跟我说:‘看,这里有一本你的书。为什么不给这位女孩签个名?’于是我停下来签了名。结果,不到30秒,一下子站出来50-60个学生从他们的书架上拿出书来找我签名。这时你会有一种意识——这本书让你接触到世界上遥远的人们。”

帕特森:“我们对当时的体系结构教材很不满意,这些书就像是购物手册,这是一个研究项目A,这是一台计算机B。所以,我们觉得应该写本书” 关于“影响力,我想RISC和那本量化方法书确实改变了人们设计计算机的理念”

场外音:其实写一本好教材不容易,并不是所有的教材都有如此影响力。轩尼诗与帕特森亲自从事RISC架构处理器设计的经历,让他们对体系结构有更深入的理解,这才是这本教材成功的关键。

七、学生是最大的财富

主持人:你们是如何学生的?

轩尼诗:“我喜欢教书,我喜欢和学生一起做研究,我真的觉得这是我生活中最美好的时刻” 。“在那些出色研究成果中,我做的贡献和学生们相比显然那么地微不足道,他们就好像是一种神奇的放大镜。我想这也正是大学里的伟大之处:学生的作用就是放大镜,真的是惊人的放大镜!”

帕特森:“(加入伯克利)32年后,我进一步明确了如下目标:导师最大的财富是你指导的那些学生,而不是你发的那些论文。我对导师的建议是,让你的学生有一个好的开始,建立令人兴奋的研究环境,帮助他们培养好的研究品味,起到表率作用,教会他们在公开场合做报告,在他们生活遇到困难时给予帮助。学生才是学术王国中真正的财富。”

场外音:轩尼诗培养了10余位博士,已有两位入选美国工程院院士,还有多位ACM Fellow。帕特森在过去40年培养了36位博士,有5位已经是ACM Fellow。值得一提的是帕特森有两位中国学生,分别是2010年毕业现在清华大学的徐葳教授与2013年毕业创办了一家创业公司的谭章熹博士。

十、敢于尝试与乐观心态

主持人:我们的采访快结束了,请你们谈谈人生最大的体会?

轩尼诗:“我经常给人们的一条建议是不要胆怯。海伦·凯勒曾说‘懦弱者和勇敢者遭遇不幸的几率差不多’,我想这是对的。一个人很难成功如果你不愿意尝试风险。所以每年我都鼓励学生去尝试风险,各种各样的风险。”

帕特森:“如果要说最大的(人生)体会,我想是乐观吧。当然不是盲目的乐观,而是谨慎的乐观。我做过很多只有五六成把握的事情,有的甚至只有四成把握,我总是说“去干吧,让我们先试试看再说”。这种乐观方式对我很有效。我想如果我稍悲观一点,就不会给伯克利打电话了。当然也有很多事我没有做成,所以我说是谨慎的乐观。”

除了PDE-Net是老板的,而且pde-net我的贡献也是四个作者里最小的,老板心善把我挂上了【感谢老板】别的idea都是我的谢谢,当然和老板的讨论也帮我refine了很多

也感谢 @钟熬销 帮我把lm的实验整理的完整, @张小帅 同学帮我两周没日没夜的把idea干work了,以及 @林挺 同学帮我把我恶心的证明思路梳理干净了【有人叫我艾特一下引流】

如果你能和我一样每天至少10篇paper的阅读量,近几年相关杂志会议文章【cvpr,siims,icml,nips,siggraph,siam其他相关杂志(jsc,uq,opt,…)】 自己方向的一篇不漏读过,arxiv每天跟进,每学期至少读一箱子paper【这是我第一学期读的,后面几个学期应该读的快多了】

领域的大佬的google scholar每月跟进,邮箱里的除了某民科的邮件都是google scholar发来的提醒邮件

院里的talk一个不拉的去,每周组织自己院里一样方向本科进行讨论班读paper读教材讨论idea

院里的博士学长一直知乎上的很多博士学长也一直在讨论,帮助我学习科研进步了很多

以及有很多志同道合的小伙伴合作,你也可以

杜克大学:陈怡然

最近和几位年轻老师聊起来招生的事情。我说我最近几年面试国内的学生经常发现一个问题: 每个人简历都特别漂亮,甚至好几篇顶会。但讲自己做的东西,非常快速的就进入到技术细节,完全没有大的picture。 你让他总结一下为什么想到这个方向或者解决这个问题,往往就是“我读了这篇文章,想到这里只要这么一改,马上XX就能提高,这不就是篇文章吗?”

毫无疑问这些学生是非常聪明的。但受到的训练却非常功利: 主要的精力都在怎么在最新发表的文章中找出一点可以马上拿一个已有的方法改进的地方,快速做完实验,把论文发出去。 而我更关心的却是他们怎么思考去发现一个好问题,这个问题为什么与众不同却又十分重要,它为什么存在,为什么一直被忽略或者让大家知难而退, 又为什么我能想到一个巧妙的方法去解决它这一整套思路。即使不能完整的走完这一流程,至少思维需要是朝着这个方向前进。

我经常跟学生讲,如果你做一个课题,发现不能在这件(小)题目上做到世界前几,那就应该主动放弃。这不是吹牛说我们事事都能做到世界前列。 恰恰相反,这几年我们主动放弃的科研方向远比坚持下来的多得多。 但能做到世界前几的方向,你一定得有与众不同的insights。 读了几篇最新发表的论文拿来改一改,即使你侥幸发了顶会顶刊,大概率也是未来无人记得的水文。 所谓法乎其上,得乎其中。你如果一开始就奔着法乎其下去,其结果可想而知。

话说回来。学生甚至学生的老师如此,大概率不能怪他们。 如果评价体系就是奔着数数去的,大家毕竟都要讨生活,也不得不跟着指挥棒一路走下去。

邓俊辉在清华大学2017级本科生开学典礼上的发言

所谓“洒扫”,字面上无非是洒洒水、扫扫地,鸡毛蒜皮的小事而已,为何要强调呢?因为照顾好自己的身体,是自立的第一步。如果你身上还或多或少地留有些许“娇”气,那么从今天开始就来扫除它们吧:把叠被子、洗茶杯、扫宿舍、理书案变成日常习惯;学会理剪梳洗,以及根据时令、场合恰当地着装。还有更重要地,学会合理而规律地作息起居。

推而广之,“洒扫”又何尝不是对我们的内心而言呢?在纷扰、诱惑四布的当下,要想有一份踏实淡定的心境来念书,必须学会过滤杂音、摒弃杂念。所谓“吐故纳新”,减法做好了,才能更好地做加法。那么,具体要从哪些方面来做减法呢?

首先要扫除“傲”气。成绩、荣誉和光环只属于过去,不应成为你继续前行的羁绊。只有做好重新再来、再接再厉的心理准备,正心诚意,才能轻装上阵。

要扫除“习”气。大学阶段学习的内容、形式及要求都有了深刻变化,你要更加兼顾学习的效果和效率,懂得为自己确定目标、制定计划,学会自主学习。针对过度碎片化的思维和交流方式,请学会合理有度地使用现代化信息工具:不要为了在虚拟世界中苦刷“存在感”,而忘却自我的真实存在;更不要因为担忧于种种网络“盛宴”的缺席而终日惶惶,以致为其所累、所困、所误。给自己留出足够的时间和空间吧,去阅读、沉思、咀嚼、畅想,去神聊、质疑、争论抑或发呆。

要扫除“躁”气。大学的课程给你的第一感觉未必是快乐,艰辛与苦涩往往是必经的味道,不能急于求成,请学会透过这些味道体会乐趣、享受过程。所谓“举一反三”,别在乎学得多少,而要看是否学得透彻、融会贯通;所谓“先传后倦”,别在乎学得迟早,而要看能否保持那种“饥渴”状态,持续成长。

最重要的,是扫除“俗”气。如果将读书局限于知识与技能,降格为个人谋生、发达的工具,就会功利而短视地对所读之书妄加取舍。陈寅恪先生说“士之读书治学,盖将以脱心志于俗谛之桎梏”,是的,读书的目的毕竟在于完善自身、提升心志,最终使你成为能够自觉肩负时代使命之“士”。大学的意义,正在于使你从这种使命的层面去重新认识自己。

还要扫除“乖”气。当下的另一“俗谛”,是片面夸大技术进步之于人类社会发展的作用。实际上,人类社会的发展既非有公式可循的推导,亦非有方程可依的反应,更不是凭借机器的计算,需要综合哲学文化、人文艺术、科学技术等各个方面的最新成果。面对人类文明的每一部分,都请保持应有的敬畏;面对每一轮的流行热潮,也请保持一定的清醒。比如,去年作此发言的是茅盾文学奖得主格非(刘勇)教授,千万别因为看到今年换成了一个计算机系人工智能实验室的老师,就以为 AI 已经替代了文学艺术。

机器学习神经网络理论方向 作者:连续可导攻城狮

先说机器学习理论。

这个方向我建议把它当成数学分支,尤其是统计学习理论,研究的泛化界、VC维等等会用到非常高深的概率手法,在难度方面并不逊色于数学院的概率系。

如果真的决定走这行,个人感觉是不要管什么应用场景,现在有关应用的大趋势是走大模型炼丹,主流学术并不需要理论,硬要理论应用两手抓最终可能会落个两头不沾边。

理论方向比较强的是清华叉院的很多大牛,不过你现在去报应该来不及了;清华贵系,但中肯来说看题主的绩点希望不是特别大;自动化所和计算所,夏令营初筛刷人率非常高,但只要入了营都好说(我是国科大系统的会相对熟些,找导师这方面可单独和我交流)。与题主的条件适配的,还有新搬迁到昌平的北大AI(DL Theory),师资力量雄厚的人大高瓴(Causal Inference)以及全国著名的南大AI(ML Theory),这些题主都有一定的胜算。

需要进一步学习高等概率相关知识,例如集中不等式、随机过程等,入行难但相对不卷,工作主要可以往NIPS,ICML,ICLR以及COLT投。

但还有很多领域,是深度学习与传统算法两开花。就比如机器学习理论,虽然现在DL处在主流地位,很多文章集中于提高深度学习的泛化性和可解释性,但现在选择做传统统计学习理论的还有很多,这方面仍然还有很多工作可以做,工作照样很优美。这种情况下,选择拥抱DL或坚守传统都是好路子,做出来的文章各自都会有好去处,如果题主不喜欢DL理论,当然可以跑去研究泛化界之类相对传统的理论。

即使DL现在非常泛滥,仍有一些领域目前未被DL完全攻克(就比如我在研的领域,由于涉密不能多展开说)。它们或许需要很强的解释性,比如基于医疗数据的辅助诊断,也有可能基于DL的方法在落地时会产生很大的困难,此时你完全可以坚持做传统算法。有三种应对DL的策略:一是直接忽视DL,不和它们一起卷;另一种是把DL的问题直截了当的点明,并将解决这一问题作为自己创新点的一部分;还有一种是给场景加以限制(比如“开放环境下”),使得DL没法应用,从而进一步突出你做的传统算法的优美之处。

至于理论ML这个方向为什么不好做,我个人将其归因为“既不数学又不CS”。理论ML研究的主要是泛化界理论,就是用经验误差限定泛化误差的上界,例如PAC可学理论,Rademacher复杂度等。这些东西有时候就是暴力不等式推导,在我们数学出身的同学眼里,就是从Markov不等式出发的一些简单概率论技巧,并没有那种抽象、严谨的美感,所以读起来会感觉不够数学。同样,这么分析出的理论上界和现实炼丹效果还存在一定的割裂性,毕竟ML主流方向还是以数据集性能为主要评价手段,打不过sota就很难发文章,所以ML理论方向相对应用方向还是要难做很多的。对口的顶会一般就是ICML和NIPS之类,还会受到没有数学背景的玄学审稿人影响。

在我心中,好的科学研究应当具有够强的insight(直观)和普遍的应用,能从根源上解释自然现象的成因,凡事都用数据和公式说话。

我之前和毛大佬有差不多的热情,希望一直在计算机和数学方面双向发展,做自己真正想做的科研,同时尽我所能将知识与经验传承下去,做别人生命中的那一道光,在最需要的时候帮他们一把。

那时的我也是热情、积极且阳光的性格,以十足的热情打每一份代码、做每一道题、看每一篇论文。同时,我也在保研经验、交叉学科等话题下写了很多心得,也一直在尽我所能帮助身处迷茫中的学弟学妹们。实力方面,虽然不如毛星云大佬那般极其出众,但也算独有一份特色,属于数学和计算机都能吊打对应学院的那种水平,也一不小心拿了一大堆国家级奖项。

在这背后,是日以继夜的努力,是远超常人的八倍工作量,以及极其严苛的自我要求,但那时我丝毫感觉不到一点疲惫,只有消化知识所带来的喜悦。

研一伊始,我便面临了一个残酷的事实:尽管我夜以继日以八倍工作量疯狂学习,但当今的AI根本就不需要交叉,有的只是算力垄断与大规模预训练调参。空怀一身科班数学知识以及多年OI基础,却只能做搭搭积木打打sota这种任务,所用到最高深的数学无非是推导梯度(恰好是本人最不齿的)。更何况最近还被狠狠打击了一番,切身体会到满腔希望化为绝望那种痛苦,

同时疯狂怀疑自己所做的一切毫无意义,包括转数学专业、报AI直博以及走科研这条路,甚至怀疑自己学的数学知识是没有任何价值的。信念崩塌的破坏力简直如同排山倒海,毕竟前几年全靠这玩意撑着一口气,现在也就完全失去了做任何事情的动力。所以这份足以让毛大佬跳楼的绝望,我实在是感同身受。

哪怕历尽千帆不再少年,我也愿初心不改,继续以善意面对这个并不是很完美的世界,争取做照耀别人的一道光。这个世界总是需要毛星云一般热情且专注的人,哪怕信仰化为碎片,哪怕现实黑暗且残酷,哪怕理想被狠狠打压,我也愿意做那个独行者!

姚期智:做研究最好的方法是提出深刻、大胆和关键性的问题

女士们,先生们,我很高兴来到这里。首先我要说,获得京都奖是一种莫大的荣幸。了解了历届获奖者和他们的辉煌成就后,我为自己被认为值得与他们齐名而深感谦卑,也很高兴和荣幸在这里发言。今天,我想谈谈我的成长经历,如何进入计算机科学领域,以及一路走来的旅程。更详细地,我将从我的背景开始,讲一讲我小时候对物理学的痴迷,这后来促成了我选择了第一个职业,然后,我会讲到我是如何偶然转换领域并成为一名计算机科学家的。之后我会简单介绍我的研究工作、我所思考的问题以及它们为什么有趣。结束之前,我还要向几位对我的生活和工作产生重大影响的人致敬。

1946 年,我出生在中国上海。不久后,我的家人搬到了香港,然后又搬到了台湾。我在一个幸福的中产阶级家庭长大,有慈爱的双亲和两个非常亲密的兄弟/姐妹。我从小深受中国传统价值观熏陶,特别是对文化和学习非常重视。令我和我父母欣慰的是,我是一名优秀的学生,学生时期一直是名列前茅。我记得我小时候喜欢数学、科学和历史。对历史人物着迷,是因为他们表现出不同寻常的勇敢和智慧。像伽利略和牛顿这样的科学家,他们也是我心目中的英雄,因为他们的才华以及为自己的信仰挺身而出的勇气,让我大为震撼。我梦想有一天自己也会成为这样的人。高中三年级,我偶然发现了亚瑟·爱丁顿爵士关于相对论的笔记副本,其中给出了相对论最生动、最简单的推导。大致如下:实验中,我们已经知道光具有恒定的速度。从这一事实,我们可以巧妙地推导出我们熟悉的时间概念不可能是一个绝对普遍的概念。而长期以来,这一点是每个人都认为理所当然的事情。这个论点给我留下了深刻的印象。我发现,物理学可以像侦探故事一样吸引人,而且比“福尔摩斯”中任何聪明的情节都更具想象力。这令我深受鼓舞。

于是在1963年,我在大学选择了主修物理。不久之后,理查德·费曼的物理学讲义发表。传说加州理工学院想从根本上重组他们的物理学大一课程,费曼同意这样做,条件是他只教一次。由此,传奇的三卷本物理学讲义《费曼物理学讲义》诞生了。这个系列讲义让我大开眼界。难以解释的高级概念,结果其证明只用初级数学就可以解释和推导。这真是令人印象深刻,让我看到了物理学的深度和美妙。事实上,这是我第一次觉得自己真正理解量子力学的原理。30年后,当我开始从事量子计算领域的工作时,费曼对量子现象的解释在我看来仍然是最有启发性和最有用的解释。这让我坚定下来,决定在大学毕业后继续在物理学深造。

1967年,我大学毕业后服了一年兵役,之后前往哈佛大学攻读物理学研究生。1972 年,我在Sheldon Glashow教授的指导下获得了物理学博士学位。最终我成为了真正的物理学家,但这并没有持续多久。1973 年,当时我在麻省理工学院攻读博士学位的妻子Frances向我介绍了“算法”。算法这个词今天已频繁出现在日常生活中,但在当时,对大多数人来说,这是一个非常陌生的词汇。当时,我接触到Knuth教授编写的《计算机程序设计艺术》的早期草稿。这是一本很有名的关于算法的书,一部了不起的杰作,它介绍了一门引人入胜的新科学。阅读后,我开始不断思考书中提出的研究问题,深陷其中而无法自拔,以至于我很快就辞去了物理学博士后的工作,转而全职攻读计算机科学研究生。我记得我母亲当时很担心我,因为我似乎放弃了这么多年的物理工作,但我的妻子非常支持我,所以我成为了伊利诺伊大学的计算机科学研究生。非常感谢CL Liu 教授愿意接受我。

接下来,我将讲述我的工作。最初,我专注于解决算法中现有的开放问题,例如最小生成树、B树等。但毕业后不久,我开始对开发计算机科学的新框架和新理论产生兴趣。几十年来,我有机会在几所一流大学工作。我在伯克利、斯坦福度过了 10 年,随后在普林斯顿度过了 18 年。2004年,我加入了清华大学,直至今日。在每个时期,我都在做一些不同的事情。很有趣的是,我在不同时期关注的主题,它们与时代的变化和计算机科学作为一门学科的发展,以及身处的大学环境都有很大关系。

接下来,我想要介绍三个主题,极大极小算法(min max complexity),通信复杂度 (communication complexity),以及密码学和MPC。我发现做研究最好的方法是提出深刻、大胆和关键性的问题。如果你能提出好问题,那么就一定会做好研究,得出对学术界来说实用且有重大意义的结论。

现在我将对每个主题的主要问题及其重要性进行讨论。

第一个是 1977 年提出的极大极小算法问题。它在我心中有很特殊的位置,因为这是我第一次提出了自己的研究问题,并找到了很好的解决方法。我们知道,算法本质上和食谱很像。例如在烹饪中,食谱会告诉你每步的步骤,例如放3盎司盐或几克肉。20 世纪70年代中期,一种新的算法引起了人们的注意,即“随机化算法”(Randomized algorithm)。这种新算法结合了随机移动(stochastic moves)。如果用烹饪来比喻的话就是,不明确告诉你有放两勺盐的步骤,而是让你用扔硬币决定是放两勺盐,还是放一杯红酒。因此,对于传统的思维方式来说,这看起来是一种疯狂的做事方式。但在20世纪70年代,人们已经证明以这种方式执行算法是有优势的,在某些情况下,它们会产生一些令人惊叹的结果。但人们还无法理解这些算法的局限性。因此,这让我产生了一个问题。到底哪算法个更好?是当时刚刚提出的随机化方法,还是用传统的方法观察数据分布,并在执行过程中调整呢?

一旦用这种方式提出了这个问题,那么就出现了一种令人惊喜的联系,让人们可以对随机化算法有了很多的了解。当把随机化算法与传统分布方法进行比较时,可以将其视为随机化算法和数据之间的博弈。算法(可以根据数据)选择如何随机移动,而数据可以选择分布方式,从而使算法的运行变得更加困难。在博弈论极大极小原理的作用下这两种方法恰好达到了它们的极限。这个联系给出了我们想要证明的定理,也就是说事实上这两种方法是相同的。这为理解随机化算法提供了新途径。在现在,这种在当时还算新颖的算法已经成为许多密码技术和人工智能算法的默认模式。人们想了解随机化算法的局限性是有原因的。因此,在40多年的时间里,我发现的算法仍然被许多研究人员用来解决他们的问题。

第二个主题是我在1979年提出的通信复杂性。

让我先解释一下这个数学问题,爱丽丝和鲍勃是两个在不同地点的人,他们各自持有一条 n 个比特的数据,比如x和y。我们想要解决的问题是,假设它们想要联合计算某个量f,它们之间需要通信多少比特,这就是这个函数的通信复杂度。当然,这取决于你在计算什么函数,例如,要计算这两个整数的和是奇数还是偶数只需要两个比特的通信。每个人只需告诉对方它是偶数还是奇数,然后他们就可以知道答案了。另一方面,如果你想计算x是否大于y,那么它将需要n比特。你需要把整个字符串从一个人发送给另一个人才能解决这个问题。更深一层的是,你必须意识到并证明,没有比这种方式来解决这个问题更好的方法了。一般来说,这是一个相当困难的问题。如果我给你一个关于F的计算复杂性,那需要相当深入的数学分析才能完成。考虑通信复杂度的原因是,计算模式在20世纪70年代末发生了很明显的变化。从之前大家都熟悉的大型计算机,逐渐转向我们现在熟悉的计算机网络。人们对以分布式方式解决问题感兴趣,许多人愿意协作解决问题。因此,这意味着我们必须把过去的计算模型调整为网络模型。在这个新的世界里,通信成本通常是很高的,因为我们必须移动数据。

因此,我刚刚向你们介绍的通信复杂度的概念就是为了模拟和反映这种变化。自从该模型被提出和分析以来,通信复杂性在从芯片设计到数据流的各个领域都得到了广泛的应用。

我要讨论的最后一个话题是关于密码学和 MPC。

1982 年,我写了三篇论文,这些论文对现代密码学做出了重大贡献。这三篇论文涉及Dolev-Yao 威胁模型、伪随机数生成算法(pseudo random number generation)和安全多方计算(MPC)。今天我只谈最后一个问题。MPC是一个加密概念,使我们可以对加密数据进行计算。如果您使用MPC,就有可能让多个数据库在不泄露它们自己的数据的情况下进行联合计算。也就是说,我们可以在看不到数据的情况下共享数据。让我用一个例子来解释一下这一点。我将引用在论文中提到的著名的亿万富翁的例子。两个百万富翁,爱丽丝和鲍勃,他们希望在不透露任何数据信息的情况下知道谁更有钱。所以爱丽丝有 X 百万,鲍勃有 Y 百万。所以数学问题是,他们想要彼此交流来知道 X 是否小于 Y。问题是,是否有可能进行一次对话,让双方在不知道对方数据的情况下又知道谁更富有呢?直觉上来说你会认为这是不可能的。我怎样才能在不透露任何一方任何信息的情况下找出谁更富有呢?如果你想几分钟你就会意识到,如果采用1982年的信息安全定义,也就是香农的信息论( Shannon's information theory),那确实是不可能的,你可以证明在那个模型下是不可能的。但我认为,需求是所有发明之母。如果真的有需要的话你肯定会想尽一切办法。所以,如果你跳出框框去思考,事实证明这是可能的。

说到跳出框框,我们的意思是需要丢弃香农在这种情况下规定的非常死板的条条框框,然后把艾伦·图灵纳入其中,我不会对此说太多。但事实证明,如果你把安全定义放宽一些,让它变成一个务实且足够好的标准,那么这个问题事实上是有解的。具体地说,我用“乱码电路”(garble circuit)实现了解决方案。在过去近 40 年的发展中,它在硬件和算法方面取得了进步,现在几乎是可行的。而这方面的研究工作也很多,准备在金融科技、数据交易、药物研发等方面开展工作。

目前我还有一些其他的研究课题,就不一一详述了。我的课题包括:革命性、有望实现指数级增长的量子计算技术;可以用博弈论来解决经济问题的拍卖理论;人工智能,这项技术见证了 AlphaGo等机器学习算法取得的令人难以置信的壮举,但成功的原因仍然是个谜。所有这些都是非常有趣的新领域,而且还在持续发展中。如你所见,我研究过很多不同的课题。这些丰富多彩的课题,实际上不仅反映了我个人的喜好,也反映了半个世纪以来信息科学的蓬勃发展,以及我们今天所看到的日益增长的跨学科联系。

最后,我想对我人生中遇到的人说几句话。

在这些年里,作为一名计算机科学家,我有幸遇到了许多才华横溢的人。我非常幸运地遇到了两位给我巨大灵感的导师,Glashow 教授和 Knuth 教授 。Glashow 教授是我在哈佛大学的物理学博士导师。他是最先预言存在Charm Quarks这种粒子的人之一,也是这种粒子最积极的倡导者。我从 Glashow 教授那里学到,在科学上你必须大胆,你必须坚持不懈地坚持你的信仰。我从他身上学到的另一件事是,数学和物理是不同的。对于物理学家来说,最重要的是能够找出物理现实的真相,而不是坚持精确的数学论证。我认为这种务实精神对我以后的研究有很大帮助。还有一件事是我从 Glashow 教授那里学到的:生活应该是有趣的。1971 年春天,作为一个年轻的学生,我跟随他去法国马赛的CNRS(Centre national de la recherche scientifique,法国国家科学研究中心)休假。这是一个多么神奇和迷人的城市,那也是我第一次来欧洲。那年夏天的晚些时候,他带我去了意大利西西里的一个暑期学校。这是一次非常美妙的经历。Gladshow教授给我上的这一课让我明白,生活的乐趣和对知识的追求可以兼而有之。现在,我想提一下Knuth教授。正如我之前所提到的,当我读到《计算机编程的艺术》时,它几乎改变了我的生活。在这本著作中,他确实开创了一个新的研究领域,也激励了一代又一代新的计算机科学家。例如,通过阅读他的书,我开启了自己的计算机科学生涯,并解决了一些他在书中所阐述的问题。后来,我有幸成为他在斯坦福的同事。众所周知,除了数学和计算机科学之外,Knuth 教授在许多方面都很在行。他是一位才华横溢的管风琴演奏家。他还是一位作曲家、小说家等。 他多才多艺,且真诚大方,总是在别人身上看到好的一面。总而言之,虽然经历了一些曲折,但我在计算机科学领域还是度过了一段美好的旅程。我发现,一开始就走错方向可能并不是什么坏事。事实上,早期的物理训练至少在两个方面对我有很大帮助。

首先,我了解到好的理论在物理学中是什么样子的,比如经典的相对论和量子力学。在之后提出计算机科学的理论时,这对我有很大的帮助。我从物理学中受益的第二件事是它的务实精神。它教会我解决手头的特定问题。不管用什么方法,你都应该根据情况使用、学习或发明解决问题的方法,最终目标是解决问题。科学是对真理的追求。在这个过程中,我们会发现科学规律和科学的美,提升人类共同的精神。它还带来了创新,可以改善人类的现状,为未来所面临的挑战做好准备。

我完全同意稻盛和夫基金会(Inamori Foundation)的愿景,即科学和人文应该为人类的进步而共同努力。我很荣幸能获得京都奖,也很荣幸能做这次演讲,与听众分享我的经历。非常感谢。

科学道路上的步履与追求——在芝加哥IEEE院士庆祝晚宴上的发言:孙贤和(二零一二年八月于芝加哥)

2012 年 4 月 21 日,国际电子电气工程师学会 (IEEE) 芝加哥分会为我、万 达·瑞德尔(Wanda Reder)和欧瑞·沃尔夫森(Ouri Wolfson)三位刚刚当选的 IEEE 院士 (Fellow) 举办了庆祝晚宴。

主办方安排我们三位新的院士在晚宴上分享一些个人的感受及想法,包括开展 科研工作的感想,当选院士的反应和感受,以及对事业刚刚起步的同仁们的建议。 当选 IEEE 院士是一个终身的成就,当选后我想了很多。应中国计算机学会之邀我 将当天的演讲翻写成中文,并做了一些补充。这里我与大家分享一下自己的感受。

静心向学,终获成功

回顾我的发展路程,所过之路阳光大道极少,多是在崎岖小路上攀登;身临峭 壁荆棘,面对凄风苦雨是常事;挫折也是常事,那少许的柳暗花明、峰回路转又多 是在付出了十二分努力,在早已筋疲力尽,遍体鳞伤之后。因为遇到过太多的挫 折,如今每当我听到好消息的时候,我总会不自觉地捏捏自己的胳膊和大腿来证实 这不是在做梦。

当我收到当选 IEEE 院士的通知时,就是这种反应。当时,那封通知邮件的标 题是 Re: Suc - Sun(回复:Suc-孙)。Suc 是英文 Success(胜出)的前缀,也 是英文 Suck(俚语:糟糕)的前缀,看起来很是可疑。在最初的“wow”之后,我 接下来的反应是“等等,难道已经是愚人节了吗?”我没删掉这个邮件,但也没与 任何人分享这一消息,一直到我的院士提名人向我发来祝贺,一直到 IEEE 发布了 官方消息之后,我才和家人、朋友及同事们分享了这一好消息。

我最知名的早期学术成果应当是“内存制约加速比”定律(又称孙-倪定 律)。这一定律表明,数据的存储是计算性能瓶颈,因而算法的设计不应该只考虑 运算的次数,也需要考虑内存的消耗量和数据的重用率。它提出了以数据为中心的 计算概念。这被不少人认为是解决今天“大数据”问题的关键。

如今常有学生来找我,想跟我学习去做下一个“内存制约加速比”那样的有开 创性的研究。我会问他们是否准备好了去做艰苦且有时看似徒劳无功的研究工作。 我是在研究生学习的第七年才得到“内存制约加速比”这一成果的。漫长的研究生 岁月,是一个挫折。我的夫人当时已经完成博士学业,并开始任教于克莱姆森大学 (Clemson University)。我试图与她待在一起。但克莱姆森大学当时没有大机 器,没有我能开展研究的实验环境,这又是一个挫折。但那所大学里有一个非常好 的图书馆。由于没有编写程序做实验的机会,我决定把所有的时间都花在图书馆 里,阅读,思考和学习。

当时,可扩展性是一个研究热点。1989 年英特尔刚刚推出第一款带有高速缓 存的微处理器。在转学计算机之前,我是一个成绩全 A 的数学博士生。转入计算机 科学系后,我没有利用我的数学背景去做些简单的理论研究以快速毕业。我选择了 实验计算科学,并做了一个并行计算机的兼职系统管理员。

并行计算机当时仍然处于起步阶段,运行起来问题很多。我经常要帮助用户调 程序并维护机器的正常运转,包括拆开并重组机器,因而对计算机系统的“内存制 约”有第一手的感性认识。对硬件限制有较好的理解并有将其抽象为简单的数学模 型的分析能力,应该说是万事俱备,厚积而薄发。成绩的取得是不懈努力之后的水 到渠成,是很平实的。不言放弃是因为没有急于出成果的焦虑。坚持终于使得曾经 的挫折变为明亮的新起点。

有一点必须指出,我们很多的所谓挫折,都来自于他人的观点和评价,是社会 的评价。只有你自己可以真正了解,它们是挫折,还是个人的选择。我非常享受我 的研究生生活。由于青少年时期没有读书的机会,那迟来的学习环境尤为可贵,对 知识的饥渴贯穿了我的学习生涯。我没有浪费任何时间,我花了所有的时间来学 习。

在研究生阶段,我修了 160 多学分的课程,基本上都是在前 6 年完成的。虽然 我没能与我的夫人同时毕业,但我从未后悔过研究生的学习生活。一天天都很充 实,一天天都有所收获。 娇妻在旁,好书在手;虽粗茶淡饭,却可心无旁骛,遨 游于知识的海洋之中,何乐而不为。更何况那时的心中澎湃着向上的豪情,认定未 来会更美好。 那时的学习也确实为我未来的成功铺平了道路,何悔可有。现在想 来,也应当感谢家人没有给我争拿第一的压力,周边环境也没给我抢挖第一桶金的 焦虑,给了我静心学习的几年。

同样重要的是,“祸兮,福之所依;福兮,祸之所伏”,“塞翁失马,焉知祸 福”。一时的失败可能会孕育着未来的成功,而今日的成功也可能导致明日的遗 憾。一个成功或失败事件的后继依赖于人们如何处理这个事件。我们不能完全地控 制事情的后果,但我们可以尽最大努力来寻求完美,同时享受这个过程。

学海无涯,胜负无常

在研究生院,我上过的 2 门课程给我留下了难忘的回忆。一门是斯多克曼 (Stockman)教授的数据结构课,另一门是佩奇(Page)教授的人工智能课。同 时,这两位教授也给我留下了深刻的印象和影响。

斯多克曼教授人长得高大、英俊,待人处事彬彬有礼、风度翩翩,很有绅士派 头;却又没有绅士们惯有的矜持与傲气。他对学生和蔼可亲,没有半点架子,对外 国学生更是耐心地让人感动。与他谈话,你能感到那淡淡地飘来的真挚的、充满关 爱的师生之情。细雨润无声,时到今日我仍然经常以他榜样,默默地在心中考察自 己对学生的耐心与爱心。

他的课,我学的得心应手。但期末考试中的一道附加题却难住了我,左试右试 一直到考试结束也没解出来。回家之后,尽管解决这个题目已不能提高我的课程成 绩,但我仍然没有放弃,继续努力,直到找到一个满意的答案。

没想到,一年之后,我又在硕士/博士的资格考试上与这道题目再次相遇了。 我这次是有备而来,这种场合再次相见,自然是喜上眉梢,心中暗暗鼓掌。更没想 到的是一题突破、满盘皆活。我是以数学博士生的资格去考计算机硕士学位的,结 果阴错阳差考过了彼时严格把关的计算机博士资格考,并最终转入了计算机系。 佩奇教授是个矮个子,且身体不太好,常常需要借助轮椅行走。他的轮椅是电 动的,很先进,左行右转,进退自如,走起来非常快。他的思维则更灵活,更快; 讲起话来妙语连珠,思如泉涌,诙谐与智慧中显露着少许得意的调皮,话到精彩处 自己往往先朗朗大笑起来,所到之处常常是笑声一片。

和他在一起,你不会觉得他是一个坐在轮椅上的老人,你会觉得他更像一个坐 在小战车里的、兴奋地跑来跑去、欣赏自己所向披靡无往而不胜的欢喜的小顽童。 他使你在不知不觉当中就放下了最初的拘谨,忘掉了心中对权威的敬畏,进而蠢蠢 欲动,也想加入到他那充满智慧的挑战却又让你心中欢乐无比的对话当中。

佩奇教授是一位非常受学生喜爱的老师。但上他的人工智能课却完全是另外一 回事。他讲课语速极快,幻灯片翻页也非常快,我来不及记笔记,只能集中所有的 精力认真听讲,间或在他大笑的时候赶紧追上他那跳跃行进的思路。

他的课没有指定的教科书,参考书一大串,看着就头大。他很少写字,写出来 的字又像蝌蚪一样难以辨认,让我那当时还没老花的眼睛一看就发花。他考试的内 容是将几十个问题与几十个答案一一配对。每个问题和答案本身都是一大段话。那 时我的英语水平有限,逻辑虽清楚,但语言上输人半截。头大,眼花,心中无底, 却又不知该如何努力才能做得更好。对我来说,参加他的考试简直和赴刑场一样难 受。

当时,佩奇教授的儿子经常会造访他的办公室,使用他的电脑或者做他出的题 目。惨了,考试过不去就得和这小孩做同学了,我当时这么想。感谢佩奇教授的手 下留情,我最终以 B 的成绩通过了这门课。在终于可以将这门课抛之脑后之时,我 有些同情佩奇教授的儿子,不知他何时才能像我一样脱离苦海。

故事似乎到此结束了,直到多年以后当我在电视上再次见到这个不再是男孩的 男孩。这次他代表谷歌公司,是谷歌的两位创立者之一,大名鼎鼎的拉里·佩奇 (Larry Page)是也。这太突然了,我这一惊非同小可,从此再也不知谁该同情谁 了。你可以想象我对当年没有继续好好研究佩奇教授的题目有多么后悔。也许当年 没考过,与那小孩同学一下也未必是件坏事。可谓是小努力,小得意,抛之脑后, 而大后悔。学海无涯,可见一斑。

科学家奋斗的动机与目标

我总是告诉学生和年轻的学者们,享受你的学习,享受你的科研,享受探索与 创新带给你的快乐和激动。失败是你准备工作的一部分,而准备是通往成功的必要 一步。我总是告诉他们,你的努力奋斗终将获得回报,或早,或晚,或以不同的形 式出现:比如在科技发展上做出贡献,获得荣誉和认同,就像我今天一样。又或许 你成立了一个公司,你的回报将会是丰富的物质财富。当然如果你成为了教授并同 时创办了自己的公司,以技术而创新,以创新而推动生产力,你获得的回报将既有 尊敬又有财富。

然而,请清醒地认识到,荣誉和财富是你社会价值的体现,并不是你努力奋斗 的动机和目标。作为科学家,我们的目标是提升拓展人类的智慧和知识;作为工程 师,我们的目标是改进人类社会的生活质量。心中怀着这样的目标,失败时你不会 丧失克服困难的勇气,有所得也不会放缓迈向成功的步伐;可以胜不骄,败不馁, 心中一片坦荡。我们看见比尔·盖茨怀着这样的目标在大富之后将他的财富悉数捐 给慈善;我们知道阿尔伯特·爱因斯坦怀着这样的目标勇攀科学高峰,在达到了世 人公认的顶峰之后,仍不断前行,永不止步。

当然,并不是所有的人都能像盖茨和爱因斯坦那样成功,但我们仍然能够怀有 同样的目标,孜孜以求,共步同行。知识分子的这种共同诉求是科技进步背后的动 力,这种共同的理想是人类社会繁荣的基础。盖茨和爱因斯坦乃是冰山一角,他们 体现的是科学家和工程师大众的核心价值。

无论是出于兴趣,出于责任,或是为了实现自身的价值,优秀的科学家们从来 都不是被荣誉和财富所驱使的。同时,一个伟大的国家总是有一个完善的体系来表 彰并认可那些为人类进步做出贡献的科学家们;一个伟大的国家总能为各式各样努 力向上的人们提供良好的学习、工作环境,使其成长、继而成功。

我很荣幸能在一个良好的工作环境下,偶有所得而又得到社会的认可。

成为 IEEE 院士是我的荣幸,也是我的骄傲。

后语:学风氛围至关重要

芝加哥的发言对年轻人提了许多建议,但对当今中国科技界的领军人物或科技 政策的制定者有何进言呢?我们告诉学生做学问要有“兔子的捷才,乌龟的静 气”,但静若泰山式的专注研究是需要依靠导师把握好大方向的。我们告诉年轻的 科技工作者搞科研要“不问收获,但问耕耘”。但这话正确的前提是科技政策到 位,使得有耕耘自然有收获。如果静若泰山,面壁十年,却发现选题有错,我们还 有何颜面再为人师。如果但问耕耘,著作等身,迎来却是身心交瘁,中年早逝,我 们还有什么资格奢谈科教兴国。科学是生产力已是国民的共识。科教兴国已是中国 的国策。制定完好的科技政策并不难,难的是如何执行、落实好政策;建立起良好 的学术环境。

偌大一个中国,要想一步到位建立一个真空的、完美的科研环境是不太现实 的。但在强力的行政支持下搭一片温室,建一方绿洲是完全可行的,也是有初步成 功经验的。就目前而言,搭温室的成功还大都停留在技术层面。培养几个好学生, 发表几篇好文章,或填补几项空白,这些固然是重要的,也是必须要做的。但建一 方绿洲,让优秀知识分子聚集,更深一层的含义是制造一种氛围,让正气抬头,给 予知识分子人品提高一个上升的空间。是让玉树临风者结伴而行,让高贵的灵魂不 再孤独难寻;是给后来的求索之人一个依靠的高度。

高山仰止,我们敬慕是道德文章,道德在前,学问在后。我们的学者需要有一 方净土,从而不必把运作当作学术生存的手段,不必像商人一样以掘金的速度来定 输赢;不必再忍受市桧精明对治学专注的不断嘲笑,更不会失去阵脚成为明日打假 的靶子。

学者的风范不在不会带出良好的国民素质。与知识分子道德缺失相连的一定是 商人的奸诈,官员的腐败,士兵的贪生怕死。

甲午战争的惨败,不是因为中国没有坚船利炮,不是因为中国没有邓世昌式的 铁血将军。中国的失败是在于那坚船利炮背后的腐朽,病入膏肓;是在于铁血将军 的孤立无援,悲剧收场。

今日的世界之战,是科技之战,是人才之战。中国的硬件环境已经有了,中国 海内、海外的科技人才也比比皆是,中国现在缺的是一种凝聚力,是一种能让浩然 正气成为主流的氛围。我们需要建一方绿洲,让洲内百花齐放,百家争鸣,春意盈 然。我们需要有一方绿洲,让知识分子做到“人到无求品资高”,可以“横眉冷对 千夫指,俯首甘为孺子牛”,做严于律己,有社会责任感的谦谦学人,真正起到社 会脊梁的作用。

整体的精励图强

戈壁滩上的胡杨六百年不倒是因为地下有天山雪水的默默滋润。没有了雪水的 滋润,纵使你是哪所求甚少,品质极高的胡杨; 纵使你把那虬干拧成一团,愤怒的 迎向寒风、你把那枯枝化作利剑,不屈的指向蓝天; 你也再难绿树成荫,给大地带 来春的希望。

我们已有太多的扼腕长叹、泪染青衫湿。中国不需要更多的悲剧英雄。中国需 要的是民族精神的崛起,是民族的崛起,是整体的精励图强。认识到这一点我想我 们就知道建一方绿洲的重要性了。认识到这一点我想我们就知道该从何处入手,更 上一层楼了。

对计算机科学的反思:李国杰,2009年

从第1台电子计算机问世到现在已经60年了,尽管计算机科学和技术继续保持高速发展的态势,但是计算机科学与技术不能再采用以往一样的方式发展,需要革命性的突破。如果一直顺着过去形成的惯性发展,计算机科学的路子可能会越走越窄。我们需要静下心来,认真进行反思,总结经验和教训,以便将来更快更好地发展。

计算机科学的迷途

1.计算机科学不应以把解决方案搞复杂为荣

普遍认为,计算机科学是“算法的科学”。美国计算机学会(ACM)对计算机科学有如下的定义:Computer Science as the "systematic study of algorithmic processes that describe and transform information: their theory, analysis, design, efficiency, implementation and application"。算法研究应该是计算机科学的重要内容,但是从某些意义上讲,计算机科学“成也算法,败也算法”。

计算机科学有两个基础:可计算性和计算复杂性。可惜,目前学习可计算性的主要兴趣在证明某些问题不可计算;学习计算复杂性的主要兴趣在证明NP困难问题。在其他学科中很少见到科学家对不可解或实际上几乎不可解的问题有这么大的兴趣。电子工程科学真正帮助了电路设计,如芯片设计的EDA工具在集成电路产业发展中功不可没。但计算机科学并没有大大减轻编软件的困难,软件设计理论的确需要革命性的突破。

上世纪70年代有一本书《计算机和不可解性(Computers and Intractability)》,作者是M. R. Garey和D. S. Johnson,很多学校都采用作为本科高年级或研究生教材,影响很大。这本书的扉页上有一张漫画,漫画中一个人说:这个问题我不能解决,但是你也不能解决,因为它是NP完全问题。说话那个人表现出十分得意的样子。这幅漫画影响了计算机界几十年,从事计算机科学研究的人对解决不了实际需要攻克的困难问题一般不会有任何内疚,因为这是大家都解决不了的NP问题。这种导向对计算机科学已产生了不好的影响。我们真正需要的不是发现一些理论上复杂的问题,而是要在用户满意的前提下尽可能有效地解决实际存在的复杂问题。计算机科学不应以把解决方案搞复杂为荣,尽可能用简单方法处理复杂问题是信息技术的生存之道。

2.应当重视确定可有效求解的问题边界

我们做的研究工作多数是改进前人的算法或理论模型,至于沿着已开辟的方向究竟还有多大改进的余地却很少考虑,很可能这一方向已到了可有效求解的问题边界,而另一方向有很广阔的改进空间我们反而没有触及。

15年前,美国纽约大学的施瓦茨(Schwartz)教授在智能中心做过一个报告。他说,数学上已知的(knowable)问题边界极不规则(如图1所示)。就像油田开采一样,在某个位置钻井有油,偏离一点就没有油。问题的可解性也很类似,某个问题在某些条件下是易解的,但是如果条件稍微改变一点点就很难解甚至不可解了。确定可有效求解的问题边界,应该是计算机科学的重要内容。

3.并行处理不是万能药

并行计算的成功与逐步普及容易使人产生错觉,只要是单机难以解决的问题就想求助于并行计算机,但并行计算并不是万能药。

计算机算法大致上可分成三类:(1)线性或几乎是线性复杂性的算法,如分类(sorting)、商务处理等;(2)多项式或较低的指数复杂性算法,如矩阵运算等;(3)指数复杂性算法,如各种模式转换、规划(planning)等。第一类算法一般可用微机或服务器实现;第二类算法和问题规模大或有实时要求的第一类算法需要并行计算机。已知的第二类算法几乎都是科学计算。超级计算对第三类算法帮助不大,加速100万倍也只能稍稍扩大求解问题规模,需要寻找新的思路。

线性提高并行处理能力不可能对付指数增长的组合爆炸问题(NP问题)。解决人工智能等问题的非确定算法(如搜索算法)在并行处理中,会出现加速比远远超过处理机数的异常现象(好的异常),但我的博士论文《组合搜索的并行处理(Parallel Processing for Combinatorial Search)》已经证明,好的异常和坏的异常(并行不如串行)要么都存在,要么都不存在。除非能开发出指数增长的并行处理能力,否则用生物计算机的所谓海量并行也不可能有效地解决组合爆炸问题。解决人工智能等组合爆炸问题的根本出路在于对所求解问题本身的深入理解。

计算机科学不仅要研究复杂性,还要研究“简单性”

1.复杂性与简单性

大多数理论计算机科学家热衷于发现人为的难题,而不是寻求有效的方法解决实际问题。我们不仅需要刻画问题困难程度的“复杂性理论”,计算机科学可能更需要建立“简单性理论”,即如何发现最简单的方法去解决实际问题。由于易解问题的边界极不规则,我们特别需要一种理论指导算法设计者选择努力的方向,需要知道往某一方向努力理论上还有多大的改进空间。

例如,热力学中有一个著名的卡诺循环(Carnot Cycle),其理论表述很简单:

卡诺效率(Carnot Efficiency) = 1 – Tc/Th

Tc和Th分别代表热机工作环境的低温和高温。这一极简单的定律对热机的设计起到非常大的作用。但是,在计算机科学里似乎从未见过这样简洁的对实际设计有指导意义的公式。

2.驾驭复杂性是信息技术创新的基本问题

人工智能领域权威学者布鲁克斯(Brooks)说过:“复杂性是致命的敌人。”系统复杂性研究已成为21世纪最重要的科学内容,但计算机领域的科研人员对这一最活跃的领域似乎关注不够。在钱学森等老科学家的倡导下,我国学者在复杂巨系统和定性定量相结合的研究上已取得不少成果,有些成果应对计算机科学家有重要借鉴意义。

信息技术发展的历史证明:信息技术发展遵循简单性法则,过于复杂的技术往往被淘汰或变成脱离主流的技术,如Ada语言、数据流计算机、B-ISDN(宽带综合业务数字网络)技术等。互联网成功的原因之一在于KISS原则(Keep It Simple and Stupid)。我们应认真总结计算机的发展史,从中发现驾驭复杂性的规律,为计算机领域的技术创新导航。

*计算机科学要为技术实现“化难为易”提供科学指南*

以往的计算机科学为技术实现“化难为易”已经提供了一些科学指南,但是做得还不够。作为一门具有指导意义的科学,计算机科学应该做得更好一些。在“化难为易”方面,下面几个问题值得我们深思。

1.降低问题复杂性的关键是选择合适的问题表述

我刚从美国回国工作时,有感于国内不重视不同于“计算方法”的算法研究,曾呼吁过国内要大力开展真正的算法研究,现在我感到要强调问题的另一面。一类问题的复杂性取决于它的问题表述(问题复杂性可能是计算机科学中很少有的不变量),只要问题表述没有改变,解决某一类问题的算法复杂性的下限就不可能改变。我们花了很多功夫优化算法,但却很少花功夫寻找合适的问题表述,可能是捡了芝麻丢了西瓜。有些所谓NP困难问题并不反映实际问题的本质“简单性”,比如识别人脸对人脑而言可能就是一个简单问题。我们不应研究人如何“绕过”了指数爆炸,而是要研究我们采用的人脸识别表述方法如何把我们引入了指数爆炸的歧路,我们需要做的事情是选择对人脸数据的简单描述的模式。

2.改变问题分解的途径可大幅度提高问题求解效率

我在美国做博士论文研究时,常常采用把一个问题分解成许多子问题的途径来解决复杂问题,这是计算机科学里最常用的Divide and Conquer方法。最近我的导师Benjamin Wan教授告诉我,对有些问题,他现在采用分解限制条件的办法比传统的子问题分解,求解效率可高出上千倍。有些实际问题,像机场的实时调度,可能有上百种限制条件。传统的求解方法是通过问题分解去缩小问题规模,如先分解到部门一级再综合。这样分解后的每一个子问题的复杂性并没有减少。但如果对限制条件进行分解,分解后的每个小问题只包含很少的限制,这样的小问题就极其简单,实际的求解效率可大大提高。

3.虚拟化是化繁为简的关键技术

一部计算机发展的历史可看作计算机技术不断虚拟化的历史。上世纪70年代,IBM 370首先使用虚拟计算机概念。1992年布特勒·兰普森在获得图灵奖时引用别人的话说过:“计算机科学中的任何问题都可以通过另外一个层次解决。”计算机产业的发展不可能完全做到先提出完美的顶层设计再按既定的标准发展,标准往往是在竞争中形成的。为了解决发展过程中互操作和兼容等问题,常常通过虚拟机的思路在更高的层次隐藏下一层的技术细节。我们要把虚拟机的思想理论化,使之成为计算机科学的重要内容。

计算机科学应重点突破技术发展的限制

1.一味提高速度不是明智的选择。

这些年来,计算机技术的高速发展得益于摩尔(Moore)定律,所以不少人言必称摩尔定律。其实,计算机技术的发展也受害于摩尔定律。CPU和计算机性能的不断提高,确实缓解了某些过去不容易解决的困难,但也掩盖了计算机科学中的一些基本矛盾,许多问题都指望通过计算机性能提高来解决。现在,芯片和计算机性能的提高已遇到功耗、可靠性和成本三面高墙,计算机科学应重点突破这些技术发展的限制。例如,像现在这样无限制地扩大芯片面积和集成度,一个芯片里集成几亿甚至几十亿个晶体管,造成功耗很大,成本不断增加,可靠性降低。近来许多专家都指出,一味地从提高芯片和计算机的速度上找出路不是一个明智的选择。

芯片器件的复杂性每年增长68%,到2018年单芯片内晶体管数预计将超过140亿个,而芯片设计能力(每个人月设计的晶体管数)每年只增长21%(CPU内大量的芯片面积只能用来做增值不高的缓存)。集成电路产业的瓶颈在芯片设计,若不能有效掌控芯片的复杂性,即使有了10纳米的新工艺,潜在的芯片能力也发挥不出来。怎样才能把芯片所能提供的能力尽量发掘出来,需要在计算机科学上有所突破。

2.吸取工业化进程的教训

我们应该从过去工业化的进程中吸取教训。几十年前,不管是化工还是钢铁,我们的前辈在实现工业化的过程中,并没有认识到他们的做法有什么不对。现在,到了我们这一代,我们发现有很多不合理的地方:没有给我们留下一个美好的环境,污染严重,浪费资源等等。我担心再过50年,我们的后人说,21世纪初有那么一批很蠢的计算机科学家,他们搞的信息化造成很多问题,浪费了很多资源,对人类文明也是一种浪费。我想,与其将来被别人批判,还不如我们自己批判自己,走一条更加符合人类社会发展规律的道路。我们需要反思:计算机科学技术是不是也走了一些弯路,是否应该探索革命性的突破?

计算机科学要寻求大的突破

计算机科学的发展已经到了相对成熟的阶段,如何继续向前发展是每一位计算机科学家需要认真思考的问题。我们需要摆脱过去已经取得的成就的拖累,提出新的发展思路。

1.重新发明网络和操作系统

最近,美国国家自然基金会(NSF)在计算机和通信网络领域提出了新的研究方向,如投入3亿美金的GENI项目,值得我们注意。美国NSF网络和计算机领域的主管官员赵伟教授告诉我,他的基本思想是要reinvention, 一个是要发明新的网络,另一个是要发明新的操作系统。他们认为,改进互联网应该是思科等公司的事,NSF不必为大公司赚钱操心。当网络带宽达到10Tbps时,分组交换可能已不能有效地工作。现在的互联网只相当于邮政系统,NSF应致力于发明相当Express快件系统的新网络。在操作系统方面,NSF不应再支持研究Unix或Linux,而是要创造新的操作系统。

NSF的科研布局使我想起了美国麻省理工学院(MIT)的“不为”原则:“不做只要努力一定能成功的课题”,即要做没有成功把握的研究。我国863计划中有不少工程性很强的项目,要求一定成功是无可非议的。但即使是基金和973项目中,带有reinvention 性质的项目也不多。今后,我们需要做一些目前还不能保证成功的研究。

2.内容处理已成为必须突破的核心技术

当前,内容处理已成为网络浏览检索、软件集成(Web服务)、网格等计算机应用的瓶颈,语义处理也是下一代操作系统的核心技术。形形色色的软件技术最终都卡在语义上,语义处理已成为需要突破的关键技术。人工智能、模式识别等技术已有相当进展,但内容处理还处于重大技术突破的前夜,究竟什么时候能真正取得突破性的进展现在还难以预见。

冯·诺依曼的最大贡献是提出了在单台计算机上把程序视同为数据的程序存储式计算机模型,而语义研究的目标是在整个网络上实现将程序视同为数据。目前的浏览器已能做到不区分本地和远程的数据,将来可能实现的基于语义的操作系统应做到不区分本地和远程的程序。也就是说,我们的目标是实现广义的冯·诺依曼计算机,即联网的计算机真正变成一台计算机,在全球网络上实现程序等同于数据。这是计算机科学家梦寐以求的理想,我们要持之以恒地追求。

计算机科学要成为提高办事效率与质量的“事理学”

1.计算机科学本质上是“事理学”

相对于研究物质结构原理的物理学,计算机科学本质上是研究做事效率和成本的“事理学”。所谓做事包括科学工程计算、事务处理、信息服务等各种人类想做的事情。

办事就要讲求章法、讲求系统、讲求组织,不仅仅是算法。盖一幢大楼,包括土木、水电、供暖等各种子系统,建筑公司可以做到相互配合井井有条;但编制大型软件失败的项目比比皆是,原因多半出在各部件和子系统无法协调配合。我们应不应该反思:计算机科学究竟缺了些什么?这里面可能有些根本性的规律我们没有掌握,怎么把一个事情做成功、做好,不仅仅是一个算法优化问题。

2.关注服务科学

最近,IBM公司提出一个新的目标,叫做服务科学(Service Sciences)。专家们认为,服务科学可以将计算机科学、运筹学、产业工程、数学、管理学、决策学、社会学和法律学在既定领域内融合在一起,创建新的技能和市场来提供高价值的服务。促进技术和商务更紧密结合需要新的技能和技能组合,这些技能和应用方法必须从大学起开始教授,创建“服务科学”学科的想法从此诞生。

在美国,整个服务行业创造的价值已占全部GDP的70%以上,服务也需要科学做指导。IBM提出的服务科学全称是SSME,即服务科学、管理和工程,将服务看成科学、管理和工程的结合,把计算机和商务紧密联系起来了。美国很多学校已经开设了服务科学课程,将来培养出来的就是美国的行业工程师。若干年前,当有人从计算机硬件软件中提炼出计算机科学时,不少人奚落嘲笑;现在服务科学刚刚出现地平线上,我们不应当挑剔它的幼稚,要以敏锐的洞察力捕捉先机。

计算机科学应成为跨领域的二元或多元科学

1.寻找被打断的“沟通链条”

近代科学学科划分过细、条块分割,反而模糊了人们对事物的总体性、全局性的认识。德国著名的物理学家普朗克认为:“科学是内在的整体,它被分解为单独的部分不是取决于事物本身,而是取决于人类认识能力的局限性。实际上存在从物理到化学,通过生物学和人类学到社会学的连续的链条,这是任何一处都不能被打断的链条”。

早在100多年前,马克思在《经济学--哲学手稿》中曾预言:“自然科学往后将会把关于人类的科学总括在自己下面,正如同关于人类的科学把自然科学总括在自己下面一样,它将成为一个科学。”面对着越来越复杂的问题,许多研究者开始探索从整体出发的研究方法,试图寻找那条被打断的“沟通链条”。

2.形成跨领域的二元或多元计算机科学

计算机科学需要强调与自然科学、社会科学的交叉,应该成为跨领域的二元或多元科学。将计算机学科分成科学与工程已不合时宜,南加州大学不再按照体系结构作分界线区分计算机科学和计算机工程,而是按分析与综合分类的新框架做区分,以分析为主的叫科学,以综合为主的叫工程,计算机科学主要内容是跨学科的分析,计算机工程主要从事面向系统的综合。计算机科学要大大加强与物理学、生命科学及社会科学的交叉研究,形成计算物理学、计算生物学、社会计算等新学科,还可以形成“计算机+生命+物理”、“计算机+生命+社会”等三元交叉科学。这些交叉学科不仅仅是计算机的应用扩展,而是我们需要高度重视的计算机科学的未来主流方向。要做好这些交叉学科研究,必须加强以超级计算机为基础的计算机模拟与仿真。我们不能认为在Computer+X的交叉学科中,计算机只不过是一个工具。实际上这是若干新的科学,它既不是传统的计算机科学,也不是原来的X学,而是把这两方面或几方面融合起来的新科学。

计算机的发展对未来人类社会也将有重大影响。计算机科学家不但要和其他领域的自然科学家合作,还需要和社会学、经济学、新闻传播等方面的社会科学家更密切地合作。总之,今后计算机科学的研究,不能完全像过去一样走越分越细的以归约还原为主的道路,应当考虑走一条强调综合集成的新道路。

对计算机学科教育的反思

和美国NSF信息学部主任赵伟教授的一次对话引起我一些反思,赵伟教授认为,美国学科教育的发展有不同模式,有些封闭保守,有些开放包容。美国较好的学科教育发展模式可能是医学院和法学院,所有相关的知识都吸纳在本学院里,其他的学院一般不教医学和法律课程。工程学科也有较好的吸纳性,其他学院一般不会开设电路设计课。但计算机学科是发散的学科,其他学院可开设各种与计算机有关的课程。计算机科学会不会像数学一样把相关的知识都推出去,只剩下很少的内容?计算机学院将来教什么课?

我国一些计算机教育专家也发现了同样的问题,他们担心计算机科学将逐步变成与现在数学差不多成为一门公共课。其实,如上所述,计算机科学方兴未艾,还有许多计算机科学应该重视的内容尚没有我们进入我们的视野,尤其是计算机科学与自然科学、社会科学的交叉将会大大充实计算机科学的内涵。我们真应当好好梳理一下,不要懵懵懂懂把计算机科学引入了很窄的死胡同。

致谢

本文有些观点是在与美国NSF信息学部主任赵伟教授及其他学者讨论中形成的,在此一并表示感谢。

为什么人前进的路总是被自己挡住?熊辉,美国罗格斯-新泽西州立大学终身教授

当年怀着做一个雅皮士的想法,1995年大学毕业去了深圳。想着风月、赚钱两不误,当时心里挺美。快一年下来除了把在科大没钱玩,没时间玩的事遍历了一把,留下的只有无边的空虚和对前途的迷惘。每天写着同样的代码,没有进步,没有成就感。创业又没本钱和人脉,人生第一次感到非常无助。

有一天,我突然失去了对所有风月的兴趣,就开始宅在家里进行古文遍历:鬼谷子、武经七书、史记、易经。作为一个理工男,其实我有着还不错的文科细胞,我从小喜欢历史,对历史有着一种敏锐的直觉。高中时,我一直是文科比理科强,当年分文理科,我决定去理科,我的班主任(历史老师)很伤心。她劝了我很久,说我数、理、化是很好,但不特别拔尖,但我对历史的感觉是很拔尖的。我这个人当时逆反心理很重,分明看不起我理科,我偏要读理科。其实我当时还有个认识,文科可以在生活中自学成才,理科需要系统化、逻辑化的训练,很难自学成才。

都说社会是一所很好的生活大学,经过快一年的社会生活,我在读这些古文的时候时常会产生很多感悟,偶尔也有些顿悟。最终书遍历了一遍,我逐渐产生了对自己、对社会、对未来的一种全新的认识。我也明白了改变自己的未来,首先需要改变自己。只有自己提升了,自己的社交圈才能提升,才能和智者为伍。但是路在何方?仔细考虑下,改变自己最好的办法还是读书。但这次读书,专业选择不能是盲目的。我给自己订了三个选择原则:1)必须是我非常感兴趣做的事情,只有做自己感兴趣做的事,才可以做到苦中作乐,全力以赴;2)所选行业必须是朝阳行业,只有在朝阳行业,才可以有力地造势、蓄势、借势。最理想是寻求一个一只猪都可以飞起来的行业;3)所选行业必须要有足够的复杂性、变化性,要能在我有生之年维持朝阳。

为了寻找满足上面三个条件的专业方向,我开始遍历前沿的科技杂志。当时大概1997年,有一天,看到一本科技刊物关于数据挖掘研究的未来与发展介绍。刹那间,觉得自己和数据挖掘有些关系。我熟读历史,喜欢从历史思考未来。看了这篇数据挖掘的介绍文章,立马觉得我就该干这行,不就是从历史数据预测未来,这个是我的思维强项。而且数据挖掘这个方向完全符合我前面制定的专业选择三原则。首先,这是我感兴趣做的事情;其次,90年代末互联网兴起,因为互联网的发展,人类会产生海量的数据,数据多了自然对数据挖掘人才的需求加大,所以数据挖掘一定是朝阳行业;最后,因为人类发展的趋势就是不断满足人差异化的需求,换句话说,数据挖掘的应用一定会复杂化,多样化,在我有生之年,应该都会蓬勃发展。

心动不如行动,想了想,当研究做,那得去数据挖掘研究最好的地方学,必须要出国留学了。说干就干,我给科大读研的同学打电话要帮忙买TOEFL、GRE的复习材料。估计接到我电话的哥们眼镜都惊掉了,我在科大是极端另类的不出国派,而且GPA中等。不过,我从来不缺自信,我最大的特长就是各方面能力很均衡,我相信能力全面的人发展更持久而且有后劲。我开始彻底从各种聚会的风月场所消失了。天天下了班就去深圳大学,上班就背牛津字典,当时室友和我开玩笑,你不是去深大泡MM吧。不时听到各种怀疑的声音,因为我要申很热门的计算机系,很多还在科大的同学和在深圳工作的同学都觉得我只是头脑发热,计算机的全奖很难拿。在很多人看来,我当时的状况是Mission Impossible。我是很有阿Q精神的,我向来把怀疑当作前进的动力的。

风风火火,字典背完,GRE/TOEFL考完,联系出国。打击比想象的大,联系了十几所美国大学,拿了一些录取通知和一所州立大学的半奖。在90年代末,没全奖是非常非常难拿签证的。硬着头皮,我拿着半奖去签,到广州花了不少签证费,一句话就把我打发了,说我有移民倾向。还好,当时准备了Plan B,拿了新加坡国立大学的全奖,可以去新加坡读硕士。我当时离开深圳,带着壮士一去不复返的气概。挥一挥手,只带走了两句话:我吃得起苦,走出去就有路。

在读硕期间,我总结了下申请失败的教训。开始在新国大计算机系,有针对性地培养自己,我很积极找导师写文章。我的导师是个台湾人,人很好,从来不给我压力,是我倒逼他。读硕士这一年(我提前毕业),我认真地把数据挖掘经典文章遍历了一下,又把全美国数据挖掘的牛组搞了个门清。然后把这些group最好的毕业生的Research Statement都收集起来,反复读,精心重新准备自己的申请材料。这时又听到周围的怀疑声,计算机全奖很难很难,能拿排名前50的都算大牛。怎么看我都离大牛有距离,我只有再次抗起阿Q精神,不怕就只申前50的。不过,没敢申请前5的,阿Q的不够。

这次是先套瓷,只联系了做数据挖掘的老师,我想了个好的email title: Mining a PhD Student。每个我套磁的老师都被我的email title吸引,花时间看了我的申请材料。反馈好的惊人,本来打算海投,看来没必要了。根据反馈选择申请了10所大学,很快申请的9所大学都给了我全奖,只有Duke商学院一直pending。那有一个做data mining的老师非常想要我,不过Duke商学院的全奖很少,他一直在努力替我争取全奖,可惜等到我必须做决定的时候还没搞定,只好遗憾地错过了。

当时我年轻,还是不够淡定,拿到明尼苏达大学全奖时,在BBS上发了消息,说我拿了明尼苏达大学计算机的的offer,认识我的一个校友问是不是 UMN Duluth (明大一个相对差些的分校)。我当时就郁闷了,说科大成绩一般的同学也不该是这么被看低的。不过我知道人对人的认识容易刻舟求剑。后来,又拿到一排名前10的全奖,就不想晒了。当时选择offer 很犯难。我最想去Duke商学院,不过要等,机会也不大。前10的学校offer不是做数据挖掘。想了几天,还是要做自己选择的方向,接受了明尼苏达大学计算机的offer。因为两个导师在UMN都是大牛:Kumar教授是ACM、IEEE、AAAS Fellow,Shekhar教授是IEEE Fellow。 Kumar教授是做传统数据挖掘,Shekhar教授是做移动数据挖掘。当时有同学提醒我跟印度导师的可能挑战,我说好不容易自己选择的道路,我是明知山有虎,偏向虎山行。虽然当时没能去成Duke商学院,现在又来到Rutgers商学院做老师,缘分。

(二)

2000年三月初签下offer,明大的导师希望我五月就去,比正常提前一个暑假。我就忙着毕业回国签证,这回在广州签证官和我唠家常,说Minnesota很冷,我从广东过去肯定不习惯。这次顺利拿到签证,心情非常激动,总算是回到了正确的轨道了。

我的飞机去明尼苏达是星期五, 是我故意安排的。我想着周末安顿下来,星期一开始干活。不过我星期五下午到学校后,还是先去学校看看,给导师打个招呼。 我导师人很cool, 先微笑着欢迎我的到来,随手就丢给我一堆paper, 说你晚上读一下, 明天下午我们讨论一下。我很淡然地接过了paper, 说明天准时到。幸好有科大校友帮我找了临时住处,把床单铺地上就可以读文章了。还好,有些文章我在新国大就读过了。第二天一早去了实验室,老板随便和我讨论了一下, 就把我打发了。我明白他只是想考验我一下,这是鬼谷子养志法灵龟提到的“将欲用之于人,必先知其养气志。知人气盛衰,而养其志气,察其所安,以知其所能。”我毕业前, 老板和我谈到这件事, 说我给他留下了深刻的第一印象。他说当时从我的眼神里看不到不满、怀疑、 困惑。

我们实验室不在系里,所以整个暑假在实验室里待着,没和新生有什么接触。九月一开学,发现课上不少同学比我年青很多。中国人很多,有清华、北大、南开的;他们有的本科直接出来,有的读了研究生出来。我在深圳4年,新国大一年,比有的同学大五岁了,汗一个。在新国大一年拿了个科研硕士,只修了很少的课。在明尼苏达大学,第一学期就选了三门重课:高等算法、数据挖掘和操作系统。数据挖掘是老板教,一定要学好。算法,老师说只给总分90以上的学生A,40多学生,每年大概有5人可拿A。操作系统我以前没学过,不是计算机系出身,有些压力。幸好我现在比在科大时要勤奋很多,也懂得怎么去搜集学习资料。上算法课,我先上网研究了名校开的算法课程,把名校推荐的算法书都精读,老师上课水平也很高,进步很快,期中考试后就知道拿A问题不大了。数据挖掘是我的专业,虽然我老板人很严格,我从课程开始就没觉得会有问题拿A。操作系统第一次学,要在Berkeley的Nachos平台上做项目,清华的同学计算机科班出身,以前上课做过类似的,说起来有板有眼。我没办法只好狂读代码,关键时还打通宵做过项目。很快,一学期过去。在科大时,很多课程都拿80几分,在这都是90好几。人努力起来,GPA也就那么回事。

记得课余和一些中国同学聊天, 有人就问, 为啥你在深圳都工作了N多年了还来读博士。我很认真地说, 因为我想做研究, 也想做faculty。北大的同学叹了口气, 在UMN就算了吧, 而且你还得熬多少年。我听着明白,非名校, 又大龄青年。清华的同学很直接:切, 在CMU的师兄、师姐很多都找不到faculty, 我就不想了。然后很同情地看看我。以前, 我喜欢争辩, 读博时已习惯用行动说话了。在现代竞争的社会,要想立言、立德,先要学会立功。

博一很快过去, 修课变得相对轻松。主要压力来自研究,拿着导师的研究经费, 一方面要替老板做项目, 还得挤出时间写自己的文章。说实话,开始真不知道怎么做科研,无论是选题、理论推导、实验、写作都有困难。有一段时间自己常去找导师,希望能得到一些研究想法, 直到有一天, 导师说, “If you are stuck, you have to work your own way out.”突然让我明白了,研究是自己的事。于是开始疯狂遍历文章,自己找研究想法。折腾到第二年快暑假了, 老板很严肃地把我找到他办公室,说他用经费支持我快两年了, 我研究还没开窍, 如果暑假还没进展要停奖学金了(我们RA压力大, 一年一签)。对我这么一个普通人家的中国孩子,没奖学金就意味着退学。想想当年一个学校给我的是五年的校长Fellowship, 总共25万美元, 心里就忐忑不安而且郁闷。我其实那时有研究想法了,只是还没写出来。我紧赶慢赶,在暑假把文章写完了。不得不感叹,那时写得真慢, 一天也写不出几句话, 一个abstract要写三天。话说我现在写一篇, 有方法、实验结果的话, 一天就拼出来了。 老板看了我的文章,觉得还满意。不过我这第一篇文章的苦难历程刚开始。

第一篇文章写完了投出去, 到年底被拒, 说想法不错, 工作做得不够细,写得不够好。郁闷归郁闷, 还得改了投KDD。还记得交稿的前一天,查相关文章, 发现一篇刚发的journal文章有一个结果和我的一个贡献是数学上等价的, 那个难受就别提了。和导师汇报过后, 他倒是很安慰我, 说这种事情经常发生,在文章中拿掉这个贡献就好了。那天晚上他和我一起做重大修改,不过文章贡献少了一大块,又被KDD拒了。 不过三个评委,两个给的不错的评价,第三个拒得莫名其妙, 感觉是有意而为。

这篇文章我只好接着改, 同时也在写另外两篇文章。到第三年暑假,我还是颗粒无收, 不过写了快三篇了, 导师倒不催我了。两个导师好象都觉得我研究没问题了。我自己觉得特没面子,第一篇文章被拒了一圈。最后2003下半年,第一篇文章总算发了个长文, 有四个reviewer, 还有一个weak reject。 当时也没放在心上, 想着文章反正收了, 很高兴 (现在发KDD也没那高兴劲)。

去开会了, 做完了presentation, 四下转转, 发现一个poster文章做的和我这篇是一样的想法,换了一些英文。当时很不解, 一看是从一名校出来的。我费牛力找到那作者, 他明显躲着我,而且显然知道我是谁。联想我这文章的悲惨经历,我开门见山, 你是不是review过我以前的投稿。他也是学生,开始不承认, 后来我说, 如果你不现在说明白, 我明天就在你做presentation的时侯公开提这个问题。他想了想承认了, 不过强调以前拒我文章是因为我工作做的不到位。我当时狂怒, 给导师发了电邮说明这件事。老板回信让我冷静, 回来他来处理。当时一下全明白了,为什么一直有个reviewer反对, 包括被接受的这次。这片文章的journal version也被review了三年才被收,也是一个reviewer不停提新修改意见。这篇文章的经历真把我的政治斗争的素养给练出来了。

到了博士第四年, 走得没那么艰难了, 拿了统计的辅修博士,也发了最好的数据挖掘会议KDD的文章。一堆工业界的人对我KDD文章中提出的算法很感兴趣。在开KDD会的时候,第一次有机会可以面对世界顶尖的数据挖掘专家介绍自己的工作,内心充满着骄傲,也想哭。真的很不容易,过去几年,没日没夜。我经常是最早到实验室,最晚离开,累了就在桌上睡一觉。所谓梅花香自苦寒来,大概就是这种感觉。

我知道找教授职位,必须有全面的素质,机会才会大些。我主动要求开始大量分担导师的一些service。我想因为我做事认真, 导师把很多重要的service交给我做。我顺便就慢慢收集了很大一个资料库。虽然,我那时只是个学生,但我把很多教授的事都干了, 比如写各种推荐信, 文章审稿,项目书评审,也给导师准备各场合的演讲稿。我导师这些方面都很强,我有机会站在了巨人的肩膀上, 学到了很多关于表达、协调、处理棘手问题的能力。应该是不夸张地说,我博士毕业时的政治素养可能比大多数助理教授都要高很多。

(三)

同时我也大力加强了教学能力的训练, 明大是个大学校, 什么专业都有。我专门学习了关于presentation和 effective teaching的课程。我们研究中心的条件不错, 投影设备很好, 我经常把自己晚上关在会议室练演讲。而且我知道,作为教师,需要工业界的纽带。我在开会期间积极寻求实习机会。我的导师要求很高, 除非是有名的公司的研究中心,否则就不能去。第四年暑假, 总算在KDD会上找到了去Lawrence Berkeley National Lab实习的机会, 这个Lab当时的Director是诺贝尔奖获得者朱棣文,实验室在Berkeley的一个山上,环境非常优美,我经常坐在外面一边欣赏美景,一边读文章。在那几个月,运气挺好把自己的算法用到生物数据,发了个PSB的文章。在我找工作那年,生物信息非常热门,凭这篇文章,我就有机会申请在计算机系的生物信息教职。

从LBNL实习回来, 要准备上job market了。大家都知道教职难找,我心里也没底。就开始搜集工作信息,建数据库,准备海投了。在这段时间, 花了很大工夫准备teaching statement 和 research statement。等数据库建好了, 从十月底开始投,我的申请是一批一批放出去的, 看申请反馈结果, 再放下一批申请。等待总是让人焦虑的, 我是做数据挖掘的,知道情报的重要性。作为情报收集,我主要做两点:首先对我自己的个人主页进行跟踪,看有没有来自我申请过的学校的大量浏览;其次,我让我的导师及时通知我,如果有学校要推荐信。我的副导师人很好,他每次会第一时间转送给我所有类似邮件。有了这些情报,我的心思安定多了。而且,我往往可以猜到哪些学校会要推荐信了。

很多学校要了推荐信,等到12月,陆续开始收到面试通知,我在2005年一月和二月初排了五个面试,其中包括Rutgers商学院的面试。说到Rutgers的申请,当时我看到Rutgers商学院招数据挖掘的教授,不以为意。觉得应该不会要我一个计算机系的博士吧,当时也没抱希望就申请了。没想到,Rutgers是最早一批给我面试的学校。等我拿到了Rutgers的面试,我还是没抱希望。Rutgers我是放在第一个面试, 就当练兵了。 去Rutgers interview, 除了领带让我觉得很不舒服,我总体比较放松。两天的interview通常很stressful,但比想象的好, 连吃早饭都在interview。记得刚到New Ark机场,接我的是老系主任,他带我直接去吃饭。我当时比较话多,他吃得很快。我看他吃完了,我马上表示我吃饱了。他就笑着说,你可以多吃些,不着急。我当时还问他,为什么Rutgers的面试这么早开始,他说我们希望得到市场上最优秀的候选人。

很快几个学校interview下来, 吃到不少好吃的西餐,大大改观了我对西餐的印象。我第一轮五个interview还没结束,Rutgers的offer就到了, 吓了一跳。 不过没几天的功夫, 其他offer也都到了。第二轮本来排了很多其他学校的面试。刚安排好。 这就要逼我做决定了。坦白说,从计算机系往商学院跳是个吃螃蟹的事,对中国人来说尤其如此。当时我也有很大顾虑,因为商学院比工程学院教学任务重很多, 做研究的时间相应就少。我考虑的是做数据挖掘,必须要靠近前线, 要能和商业应用打交道, 技术知识集和领域知识集是缺一不可的。当时系里有教授赞成, 也有教授反对我去商学院。有一个老师对我说,你要去了商学院, 我再也看不到你做serious research了。还有老师说你能不能教商学院的学生, 言下之意是我英文都说不地道。另外,我还有顾虑, 导师的人脉都在计算机领域, 我去商学院要白手起家。 而且后面的面试,学校越来越好, 让我有些不舍。后来和两个导师商量了一下。他们很赞同我去商学院, 并说根据他们对我的了解, 我能在商学院生存下去。我和副导师说我有机会去更好的学校,去了Rutgers,会不会有遗憾。我的副导师当时对我说了意味深长的一段话, 大意是, 如果以你的能力可以去A生存, 你要选择去B+的地方,life will be much easier and you have more room to grow。

说到我的副导师, 人极聪明。印度贵族出身,父母是在美国拿的PHD回了印度, 他是全印度高考第二名。一路名校, 四年从Berkeley计算机毕业,顺手还拿了个MBA。干脆插播一下两位导师,两人风格迥异。我的导师大局观很好,非常有战略眼光和领导力。副导师很擅长局部,能把事做细做好,也很能享受生活。就像下围棋,大老板很有大局观,擅长布局,副导师很擅长局部死活和收官。读他们的博士真的很辛苦,因为他们的要求南辕北辙,一个重视整体和高度,一个重视细节。最后毕业时收获很大,很感激他们。

综合几天收集的建议,又思考了几天。下决心接受了Rutgers的offer,把所有后面的interview都取消了。其实,我这几天思考的不是接不接受这offer,而是接受了以后该做些什么。二月底我接受了offer,从market上退出了。马上着手做了两件事:第一件事是找了暑假在IBM TJ Watson Research Center做实习的机会,因为知道商学院对journal看的重;第二件事是把所有发过的会议文章做深做广,送journal.我第一年就要教四门课,如果现在不深挖洞,广积粮,研究的连续性肯定得不到保证。我的实验室伙伴都觉得很奇怪,说你怎么拿了offer更勤奋了。他们不知道,兵法上说有备无患。我这是兵马未动,粮草先行。

赶着去IBM Research做实习前把一堆journal 文章送稿了。来到IBM TJ Watson, 环境真得很好, 空气清新, 里面的研究人员大都名校毕业。我的mentor介绍我给其他组员认识,说我要去Rutgers做faculty了, 同时来的另一个intern学生,来自CMU的计算机系,小姑娘从罗马尼亚来, 听说数学是拿过牌的, 非常aggressive。我整个暑假过得都很开心, 交了很多朋友。还有一科大哥们,在Princeton读博士,毕业去了De shaw co,很牛的公司。

从IBM实习回到学校, 答辩完了后和大老板长谈了一次。我向他请教junior faculty的生存之道。他说了很多,最后一句是, You have to be strong all around (样样都要强)。他说只有这样,命运才能把握在自己手上。

来到Rutgers,头两星期忙备课, 第一次教课, 我倒不紧张。教信息类的课没必要紧张。只是想着把知识点组织好,有逻辑。 中间加些小案例,小故事,把课堂气氛搞活跃些。一学期下来,感觉以前在明大的功夫没白费,教学效果还不错。学生evaluation都是>4.5 out of 5.0。我知道这是很高的,对teaching我就放了心,开始有时间做些新的研究课题,因为第一年没博士生,我在中国寻求合作,所以严格说我带的第一个博士生在国内。2006年因为教课,我只写了一篇KDD文章,在审稿过程中还差点还被人故意做掉。刚做教授,开始艰难啊。

其实更难的是研究经费,因为是商学院,我几乎没有研究启动经费,我基本上可以说是裸奔来的。刚开始只有5000块,买个电脑,连出去开会的钱都没有。记得2006年下半年,我刚工作一年多。 学院内部分研究经费, 按规定优先给青年教师。最后,几乎所有青年教师都拿到了些钱, 除了我。我也知道为什么,我是计算机系毕业的, 在商学院没人脉, 没人疼,没人爱,又是中国人,不欺负你,欺负谁去。我对这些都有心理准备。平素吃些小亏也就不计较了,我现在连开会的钱都没有,于是这次我决定passively aggressive一次,把事情搞大。虽然这样,我现在遇事总是先冷静5分钟,通常在学校走圈圈思考。想好了,再行动。我精心把过去一年的成就准备好, 带着打印好的材料直奔院长办工室。我进去就说, 报歉,我知道见你要预约, 但我有些紧急的事就占用五分钟。我们院长对我很好, 就让我说了。我先递上我的简历,并说我过去一年发了四篇top journal(共九篇journal)文章,院长说很出色。而后,我又递上过去一年我的teaching evaluation,院长看了觉得很意外,说没想到你教课这么好。我就立即问你觉得我哪些方面要改进,院长说很优秀,要保持良好的势头。我就跟着说,这个內部funding是不是用来鼓励优秀青年教师的,院长说是啊。我说,您觉得学院应不应该支持我,院长说应该。我说,那好吧,The Award Committee今年就没给我。院长很快打电话证实了一下,说报歉,今年钱分完了。我会保证以后特别关注你的case,院长以后没有食言。

(四)

有时候,塞翁失马,焉知非福。这件事后不久评全院的Junior Faculty Teaching Award, 奖颁给我了。我知道这个奖一年就一人获得。拿了教学奖,评tenure时,不会有人刁难teaching了。在这个奖公开之前,还出了个小插曲。

在第一年结束的时候,系里一位老教授,给我发了一封措辞严厉的电子邮件,还CC给了系主任,和其他几个老教授,大意是我虽然研究做得还不错,但teaching is horrible,"a dis-service to our students"。我当时看了电邮,气得把办公室的椅子踢破了。还好没冲动,又出去溜圈,突然我就大笑,天助我也。路边行人还以为我疯了。我知道他为什么写这种邮件,因为我不是很听他的话......(青年教师被剥削不是盖的),一直有担心他会在评tenure时会为难我,这下我不是很担心了。我马上回去准备材料,把学生的teaching evaluation,学生给我的感谢信,还有一些我自认好的slides,打了个大包,回邮件给他并CC给学院领导和系里同事。我的邮件写得很诚恳客气,主要列举事实,感谢前辈的指点,希望有机会当面请教如何教学,坦白说这位老教授教课比我差了几个档次。 

这次机会真是上天所赐, 系主任把我找去说不用担心, 那老教授向来对年青老师很刻薄,说我做的各方面都很出色。院长也找我说了类似的话,并说没有credential的comments, 学院是不会采纳的(一切尽在我意料中)。那老教授没回我的电邮,我等了一段时间, 找了个机会主动和他聊这事, 我想给他个台阶下。他只是说以为中国老师在商学院教书都不好,当时发邮件时想当然了。后来我很快拿了教学奖,他再也不轻易找岔了。我的生存空间在faculty第二年一下子宽松了很多。这就是兵法上说的打得一拳开,免得百拳来。

我博士毕业时拟了个计划, 第一年专注teaching, 因为有毕业前六个月打下的科研基础,第一年的research看起来进展很快。 不过我知道老本会很快吃完的。我是个worry-type的人, 如果没有十篇文章在review queue里, 我是不会放心的。在2006年,我只投了一篇KDD,就差点被人做掉。因为我计划中第二年的重点是回到research,所以2006年暑假就开始整合资源, 准备课题冲击2007年KDD。这次同时有七个课题,写了快九个月。我相信集团性冲锋,敌人是挡不住的。2007年我的KDD确实大丰收,中了四篇。当时很高兴, 后来在研究经费上吃了几次大亏,明白不能太显眼,后来两年就少投了些文章。

到了2007年暑假, 因为和国内的合作, 来美国七年第一次回国。总算可以放心的休息一下。回国还有个目的, 想面试些学生。 我挑学生标准和很多老师不一样。我喜欢处于困境中的学生, 我看学生十个字:态度、基础、精神、意志、习惯。一个学生,没有良好的态度,其他方面再优秀我也不能要,因为态度不好的学生往往小事不想做,大事做不了。关于学生基础,我比较在乎学生选的数学课程的科目和成绩,其他GRE、TOEFL、GPA,我的要求通常不高。关于学生精神,一个人没有向上的精神,人就没动力。而一个人没有坚强的意志, 人就不能在困难中坚持。最后,一个没有良好的习惯人, 就不会有良好的基础和发展的潜力。处于人生困境中的学生加上这十个字就是我最理想的学生。

说一说, 我为什么喜欢人生困境中的学生。因为我曾经也是从人生困境中爬出来, 知道困境中的不易。我想给困境中的学生一个机会, 因为我知道他们会特别珍惜我给的机会, 和我当年一样。饿虎虽然瘦, 下山了迸发出的能量比猛虎还大。 当然那十个字不能缺。可能我上面强调精神、意志多了。实际上work smart很重要。前面提到过,我帮导师做service, 是要花很多时间的。我只和老板提了个要求, 希望他能提供他以前的样本。事实上就写推荐信一件事上, 我就建了各种推荐信的资料库, 包括Tenure letter, Phd job letter, Master job letter, IEEE Fellow recommendation letter,Green card letter。将来我可能需要的各种推荐信的场合我都准备好了。同样对于文章审稿,我也有一套资料库。现在每年我要担任十几个会的program committee,总会有十几篇journal review。如果没有高效的工作方法,不可能survive,基本上我把review程序化,很多paper一看就知道不行,不行的原因有很多共性。我一般快速翻一下文章,5到10分钟。就决定了3个category:收、不收、待定。收、不收的可以半自动处理,待定的花些时间细读。

很快第三年开始,就要准备三年中期review的材料,过程和评tenure一样,就是不需要外面的推荐信。翻过年到2008了,很快拿到中期review结果,评价非常好。学院的评价是,我的成就已可拿tenure。期间还拿了全学院唯一的年度研究奖。很快到暑假,我又要重新送材料评tenure。不费事,因为刚做过,唯一的麻烦需要十封校外推荐信。这个很重要,如果有一人说不好都有麻烦。十月把材料交上去,很快系里、学院都全票过了,报送学校。这段时间有点紧张,在我之前我们系的三个tenure case都被毙了,他们都是正常时间申请的,我提前了太多,要不然,也不用紧张。到了2009年April 2nd,我在开车,突然收到一个电话是院长打的,我知道一定是好消息。我是情报工作做得好,我知道学校那天Board of Governor开会出结果。而且好消息都是电话传送的,因为每个人都想在这种时候在你的脑海中留下美好印象。而坏消息都是邮件传送的。我的CASE在学校committee也是全票通过,还拿了Rutgers Broad Trustee Award。这个奖是从刚promotion的教授中选的,算是给商学院争光了。

从2008年8月,到2009年4月,一切回想起来就像一瞬间,一切是按我当年的计划走的,不过没想到走得这么快。我应该是计算机毕业直接跳到商学院的第一个中国人,期间的经历颇为感慨。我想应该写些从我的角度看到的一些区别。

最早从读博期间, 花了很多的时间观察学术界的牛人,包括我的两个导师。我发现他们都有一个长处, 就是各方面能力均衡, 并都很强。事实上, 世界上多种竞争, 归根结底是资源的竞争。牛人获取资源的能力都很强。总结一下,学术界获取资源需要五种能力:研究能力,表达能力,组织能力,管理能力和市场推广能力。通常大牛五种能力都很强。 首先,研究能力是基础,没有对研究方向的敏锐性和对研究的过程的超强把握能力,是很难有开创性工作,也很难服众。真正的牛人是有传承的,总有几个弟子也会成为牛人。其次, 光研究好,表达能力不强也是不行, 因为牛人的产生, 往往是有人推的。特别是当今社会, 强人太多;所以人要牛, 还要有表达能力让人知道你很牛,同时能够把复杂的东西以最简单的语言描述出来, 本身体现的是一种艺术和牛人气质。第三点的组织能力是关于领导力, 组织大项目、大型活动的能力。这一条是区别大牛和小牛的关键。组织大型活动(会议、 期刊)往往就是建立获取资源的平台。西方不流行赤裸裸的贿赂,流行资源的交换。最后,管理能力是贯穿牛人成长过程的必须的生存法宝。万事开头难,刚做助理教授的时候,要学生没学生, 要资金缺资金, 要时间没时间,要支持有剥削。唯一的办法是高效的时间管理,有效的借鸡生蛋, 量入为出的财物管理, 借力打力的纵横捭阖。时间管理是任何青年教师必须掌握好的。管理时间最关键是抓大放小,做好计划,果断决策,大胆授权,再不停反思梳理自己的生态系统,只有这样才能让自己免于焦头烂额。

姚期智的访问提到了以下几点:

  • MIT很活跃、很忙碌、有很多的访问学者、交流和演讲;Stanford 背靠硅谷,产业结合比较好;Berkeley国际化、亚裔学生多;Princeton象牙塔,注重教学。

  • 通常,最可能发现潮流的是年轻人,年轻人应该依靠自己的天分充分找到自己的研究兴趣。他个人比较欣赏那种自己寻找题目的人,他们可以在工作的过程中,请资深导师给出建议,等他们完成论文后就会成为完全自主的研究者。

  • 如果可以的话,姚期智先生想从年轻时就多做运动。一个人的心情、身体对做学问有很大影响。

施一公:我是这样读英文科研论文的

从小到大,我感性思维比较强,不善于读书。1985—1989年在清华大学生物系读本科期间,我从未读过任何一种英文专业期刊。我受到的英文阅读相关的训练只有两个。

一是我在1986年暑假期间选修的时任系主任蒲慕明老师开设的“生物英语”系列讲座,隐约记得蒲先生让我们阅读一些关于DNA双螺旋结构的发现之类的科普性英文文章,内容很有意思。但课程时间较短,暑假过后我也没有养成读英文文章的习惯。

二是与《生物化学》这门课有关。与现在的清华生命科学学院形成鲜明对比的是,我上大学期间的所有基础课和专业课都用中文教材,老师都用中文讲课。只有郑昌学老师讲授的《生物化学》采用了《伦宁格生物化学原理》(Lehninger Principles of Biochemistry),而且郑老师要求我们每次课后阅读10~20页教材,大多数同学因此感觉到专业英文阅读能力有所提高。

1990年4月至7月初,我在美国艾奥瓦州埃姆斯小镇的艾奥瓦州立大学度过了初到美国的前三个月,其中大部分时间在赫伯特·弗洛姆教授的实验室做轮转,跟随刘峰和董群夫妻两人做研究。当时对我来说最困难的就是读专业论文。

有一次,弗洛姆要求我在组会上讲解《生物化学期刊》里的一篇文章。我提前两天开始阅读,阅读第一遍花了足足6个小时,许多生词只能依靠英汉词典,文章中的有些关键内容还没有完全读懂。当时我的感觉是《生物化学期刊》的文章怎么这么长、这么难懂!真有点儿苦不堪言。

为了能给弗洛姆教授和师兄师姐留下好印象,第二天我又花了好几个小时读第二遍,还做了总结。第三天我在组会上的表现总算没有给清华丢脸。但是,前前后后我已经搞不清楚自己为了这一篇文章到底花了多少时间。

1990年7月我转学到美国约翰斯·霍普金斯大学以后,与本科来自北大的虞一华同在一个博士生项目里。虞一华大我一岁,来巴尔的摩之前已经在夏威夷大学读了一年的研究生,科研论文的阅读能力比我强很多。他常常在项目办公室里拿着《科学》和《自然》杂志津津有味地阅读,我很眼馋,也不理解其中那些枯燥的文章有什么意思。他告诉我,他在读很有意思的科学新闻。

科学新闻能有什么意思?虞一华给我讲了好几个故事:洛克菲勒大学校长、诺贝尔奖得主戴维·巴尔的摩如何深陷泥潭,人类基因组测序的争辩如何激烈,HIV(人类免疫缺陷病毒)究竟是谁发现的,等等。我真没想到,学术期刊上会有这么多我感兴趣并能看懂的内容。

从那时起,每一期新的《科学》和《自然》一到,我开始尝试着阅读里面的新闻和研究进展介绍。这些内容往往出现在《新闻与评论》《研究新闻》《新闻与观点》《视角》等栏目,文笔平实,相较于专业的科研论文来说很容易读懂。有时,我还把读到的科研新闻讲给我的同事或朋友们听,而同事的提问和互动对我又是更好的鼓励。除了《科学》和《自然》,我也常常翻看《科学美国人》杂志。

与《细胞》《生物化学期刊》等非常专业的期刊不同,《科学》和《自然》里面有相当一部分内容是用于科普教育的。

《科学》的《视角》和《自然》的《新闻与观点》栏目都是对重要科学论文深入浅出的介绍,一般有1~3页,比较通俗易懂,较易入门。读完这些文章后,再读原始的科学论文便感觉好多了。而且你可以把自己的体会与专家的分析进行比较,找找差距,有时甚至还能找回来一点儿自信。

从1998年在普林斯顿大学任职,到在清华大学当教授,我总是告诉自己实验室的所有年轻人(包括本科生、硕士生、博士生、博士后)下面这几点读科研论文的体会,也希望学生跟我学习。

1. 请每位学生每周关注《科学》和《自然》,生命科学领域的学生还应该留心《细胞》。

如果时间有限,每周花一个小时读读这几种周刊里的文章标题及与自己的研究领域相关的科研论文的摘要即可。这样可以保证学生基本能够跟踪本领域最重要的发现和进展,同时开阔视野,大概知道其他领域的动态。

2. 在时间充足的情况下,可以细读《科学》和《自然》里的新闻及科研论文。

如果该科研论文刊发在《新闻与观点》或《视角》栏目,就先读这些文章,这类导读文章会提炼问题,就好比老师事先给学生讲解一番论文的来龙去脉,对学生阅读原始论文有很大帮助。

3. 在读具体的科研论文时,最重要的是了解文章的主线逻辑,文章中的所有思路都是按照这个主线逻辑展开描述的。

所以,我一般先读“引言”部分,然后快速地看一遍正文的数据展示图。大概知道这条主线之后,才一字一句地去读“结果”和“讨论”。

4. 当遇到一些晦涩难懂的实验或结果分析时,不必花太多时间深究,而要力求一口气把文章读完。

也许你的问题在后面的内容中已有解答。这与听学术讲座非常相似。你如果想每个细节都听懂,留心每一个技术细节,那你听学术讲座不仅会很累,而且也许会因为深究一个小技术环节而影响了对整个讲座逻辑推理及核心结论的理解。

5. 对个别重要的文章和自己领域内的科研论文,应该精读。

对与自己的课题相关的每一篇论文,则必须逐字逐句地读。对于这些论文,不仅要完全读懂,理解每一个实验的细节、分析过程、结论,还必须联想到这些实验和结论对自己课题的影响和启发,提出自己的观点。

6. 科学论文的阅读水平是循序渐进的。

每个人一开始都会很吃力,所以你有这种感觉也不要气馁。坚持很重要,你一定会渐入佳境。当有问题时或有绝妙分析时,你应该与师兄、师姐或导师讨论交流。

7. 科研训练的一个重要组成部分就是科研论文的阅读。

每一位博士生必须经过严格的科研论文阅读训练。除了自己的习惯性阅读,还应该在研究生阶段选修以阅读分析专业文献为主的一至两门课,在实验室内也要有定期的科研论文讨论。如果你的实验室还没有这种讨论,同学们可以自发地组织起来。

8. 前面几条都是讨论如何提高科研论文的阅读能力的,但是一旦入了门,就要学会批判性阅读。

不要迷信已发表的论文,哪怕是发表在非常好的期刊上的。要时刻提醒自己:该论文的逻辑是否严谨、数据是否可靠、实验证据是否支持结论、你能否想出更好的实验、是否可以在此论文的基础上提出新的重要问题,等等。

天外有天,读科研论文是一件很简单但也很深奥的事情。一般的学生常常满足于读懂、读透一篇好的论文,优秀的学生则会举一反三,通过查找相关参考文献以全方位了解整个领域的历史、现状,并展望该领域未来的进展。

我从1990年对学术论文一窍不通到1996年博士后期间变得得心应手,还常常帮助同事进行分析,曾一度认为自己达到精通的水平。但是有一件事让我看到了自己的严重不足,颇为羞愧。

1996年,是Smad蛋白发现及TGF-β(转化生长因子—β)信号转导研究最激动人心的一年。哈佛医学院的惠特曼实验室在10月的《自然》杂志上发表了一篇名为《TGF-β信号通路中MAD蛋白的转录同伴》的文章。

读完之后,我正好遇到TGF-β领域的著名学者琼·马萨戈,便对琼评论说:“我不清楚为什么这篇文章能以长文形式在《自然》发表,他们只是找到了另一个Smad相互作用蛋白,而且数据质量很一般。”

完全出乎我意料的是,琼马上回应我道:“我不同意你的观点,这篇文章把细胞质Smad蛋白连接到细胞核中,并鉴定了一个转录因子作为其相互作用蛋白,现在TGF-β信号通路完整了,这是一篇出色的《自然》文章。”

这件事对我触动极大,原来大师的视野和品位远远在我之上。从那以后,我也开始从整个领域的发展方面来权衡一篇文章的重要性,这件事对我此后为国际重要学术期刊审稿、自己的实验室选择研究课题都产生了相当重要的影响。

如今,我阅读一篇本领域内的科研论文非常顺利,而且常常可以看出一些作者没有想到或分析到的关键点。回想从前,感慨万千,感谢蒲慕明、郑昌学、虞一华、约翰·戴佳雷、杰里米·伯格、琼·马萨戈等老师和同事对我的帮助。我很留心,也很用心。

希望所有的学生也能通过努力和坚持,对英文科研论文的阅读得心应手。

(作者系西湖大学首任校长、中国科学院院士。本文摘自《自我突围:向理想前行》,有删减)

你最大的问题就是英文水平…国内导师大概不看这个,你申请国内学校倒是不需要。

不过等你读博乃至读完博士以后,你会发现对你人生制约最大的就是英文水平。

英文好,科研学习两不误,还能在国际会议上谈笑风生,毕业之后天下之下随处可去;

英语不好,科研效率提不上去,学习资源也利用不好,不敢到会议上发言甚至不敢提问,毕业之后只能指望老板给自己点助力在国内找个好点的坑…

《读博士的难与易》

有几个要注意的点:

  • 既然玩不来这个游戏,就一定要找一个要积累足够的经验才能玩起来的领域

  • 虽然没人手把手带我飞,但这个领域研究的人多,好论文也多,非常适合新人学习。给我启发最多的论文都来自 PL、系统和硬件,可想而知在此过程中补充了多少基础知识。
    因此,我现在尽可能给新人推荐这种已经很多人研究过的领域,虽说在这种领域发论文可能相对更难一些,但能学到非常多的东西。相反 (也是另一种很常见的情况),你如果进入一个特别小众的领域,只有几个人在玩,入门视野就窄了、格局就小了,就算能灌很多论文,我个人觉得不是很利于今后的职业生涯。

  • 我觉得自己还算是个热爱学习的人,在那个时候读了很多与研究方向无关的教科书、论文和公开课,也听了很多学术报告。我记得 @李沐 在PhD 回忆录里提到了“Parallel and Distributed Computer: Numerical Algorithms” 这本书给他很大启发,我也读过,写得非常好,那些经典的视角在今天都不过时。
    以及时候开始读杂志 Communications of the ACM (CACM),到今天应该看完 10 年份了 (入坑之后往前补了不少,但后来也坚持不下去了)。虽然很多文章并不能完全读懂,但大部分时候都是在 “开眼界”,看看其他领域的人在用什么方法解决什么问题,算是构建计算机科学的世界观。
    另一个成功的例子是 Tim Roughgarden 在算法课上一句话提到了一份 USENIX Security’03 的工作,然后就这一句话启发我们做了正则表达式复杂性攻击的工作 (当然做研究没有那么顺利,中间的波折就忽略了),并且很意外地获得了 ACM SIGSOFT Distinguished Paper (真是意外,其实是 Conditional Accept,差点挂了)。这个论文的点睛之笔是非常规地使用了Pumping Lemma,已经不记得是什么时候在什么地方学过这个定理,但的确那一瞬间就想到了。

  • 所以你还想读博士吗?好像也没什么难的——找一个 (足够) 困难的方向,把相关的论文都读了,然后死命想还能做什么就完事了。
    当然要事情真那么好,读博士也就不至于知乎上说得那么惨了——没遇到对的人、如果脸皮不够厚……一步走错就可能半途夭折。现在中国的学术界在一个惊人的转折点上,随着下一代人从小受到的训练越来越好,我那点三脚猫的基本功迟早是保不住的。做研究可能并不是靠被动地“学习”就能搞定的,长江后浪推前浪,前浪立马就死在沙滩上。
    现在我觉得自己大概在活下去的 “及格线” 上——从小我自己就不是个 hardworking 的人,但 fully focused 的时候还是可以做出一些差强人意的东西。如果我读博士时候再努力一些,杂七杂八的事情别管那么多…然后游戏再少打一点,不要谈恋爱结婚 (已屏蔽老婆),publication list 也不会就这么孤零零的几篇了。我经常和学生们说,如果你们连导师都不能正面刚,还是谨慎考虑一下读博这件事吧。

周知老师培养学生的观点

1. 能做——做出任务 2. 能写——写论文 3. 能讲——讲论文,让别人理解 4. 能用——实际产品,被引用 5. 能卖——商业化; 论文也可以卖钱

讲座

陆品燕老师讲课很通俗易懂,他提到两个事让我觉得似乎顶尖大牛也有自卑心理。一个是给出POA、POS上界的例子的时候涉及到了微分方程,他说自己对连续数学不太懂,似乎是勒贝格测度里的一个什么东西,然后看向王立威老师,而王立威老师就猛点头;另一个是他在命名一个现象时说自己英文不太好,真的是见了鬼了,发了这么多英文论文还是这个样子,原因要么是非母语者很难找到英文词汇去描述一些暧昧的现象,要么就是少年自卑心理的延续。我觉得两者都有可能有。 关于这篇93页的论文,他说虽然经济学家已经意识到了这种第一拍卖中效率低下现象,但是他们不太会定量分析,因此方而是计算机科学家给出的理论结果多一些。这点燃了我对博弈论的一点自信,最近关于博弈论我有两个体会,顺便说一下:

  • 博弈论是用在决策过程中的:当考虑多个智能体之间的交互,最优控制、预测就会和博弈扯上关系;而决策是未来AI的发展方向,因此了解博弈论的进展是有用且必要的。

  • 发挥计算机科学家在定量方面的优势,不是说经济学家研究了这么多年我们就没有可以继续研究的了,经济学家往往数学不太行,只给出定性的结果,我们可以站在他们的肩膀上给出更加精准的刻画。

虽然这两个道理看上去不难发现和似乎是已存在的,但基本是我大半年反复思考体悟得来的。

邓小铁老师则像个老顽童,说一些搞笑的话。他老是问“这里有没有什么说法”,尝试从直觉的角度研究问题。一些很简单的(我自认为的,现在发现是我得过且过、囫囵吞枣地理解的)知识(比如期望放在下界的内部还是外部)也要讨论几分钟,虽然一开始看上去很蠢,但发现实则是很深奥的问题。邓老师这点值得学习:注重理解和直觉、质疑简单的结论。

分类:model的表达能力,training data的优化方法(包括在线条件下的收敛性、Regret等),test data的泛化能力。也就是Representation、Optimization、Generalization。

Representation:

  • 万能逼近定理(Universal approximation theorem)

    • 很早就有人证明了3层神经网络(只有一个隐藏层)可以逼近任意函数(定义在紧集、连续的),但是网络的宽度随着逼近的精度指数级增长。这意味着网络可以无限宽。

    • 王立威和周志华他们在2017年证明的是有限宽度(网络宽度要严格大于data的dimension),任意深度也有这个定理。同时,要是网络宽度要小于等于data的dimension,无论网络多深,它都不是一个Universal approximator。他们还提出了一个猜想,相同神经元的情况下,窄而深还是宽而浅的网络好呢?(更加具体地说,任意一个宽而浅的网络,存在一个相同神经元数量的窄而深的网络可以很好地近似它;但是存在一个窄而深的网络,任意相同神经元数量的宽而浅的网络不能很好地近似它)这个问题2022年左右被(3个以色列人)完全解决了。因此深度就是要比宽度表达能力更强。

    • 还有人研究有限宽度、有限深度。具体见Universalapproximationtheorem

    • 还有以前的2019年的一个讲座王立威:从经验性的积累到理论空白的弥补,2020年的一个讨论下一代机器学习的应走之路

  • Graph Neural Network的表达能力

    • 过去4到5年时间很多人通过WL-Test的理论来研究GNN的表达能力。原因是GNN要在不同图上预测或者分类,那么GNN应该要可以区分不同的图(即图论中的图同构问题,通常认为不是P也不是NP hard和NP complete问题)。WL-Test可以研究一部分图(不是全部图)的同构问题。而研究发现GNN和WL-Test非常像。

    • Biconnectivity:从另一种角度来研究GNN的表达能力、这个概念在图论中已经被还算广泛地研究了。王立威他们发现过去满足WL-Test这么强性质的GNN也判断不了Biconnectivity。

    • ICLR 2023 Outstanding Paper Award!

Optimization:

  • Non-Convex与High dimension

    • DNN的损失函数高度非凸,按道理来说没有什么优化方法可以比较好地适用,但是简单的梯度下降法却能很有效(一阶优化方法)。Non-convex函数中saddle point和local minima的一阶导数都是0;为何还能很好优化呢?

    • 低维空间用一阶优化容易卡在local minima;但是高维空间容易卡在saddle point!

    • 马腾宇等人2016的研究表明matrix completion has no spurious local minima —— all local minima must also be global。

    • 王立威他们发现Gradient descent finds global minima of deep neural networks,只要满足1. over parametrization(参数量大过数据量),体现在网络宽度要达到一定量级 2. gaussian initialization,且方差要满足一定条件,于是这会是很好的一个初始点,然后大概率附近就是好的山谷(近似凸的且有global minima,注意这些山谷并不多)。那么GD或者SGD这种一阶优化方法就能线性速率找到全局最小点(这里指的就是损失函数值为0,会有多个global minima)。而且Resnet这种更好的结构可以比全连接神经网络满足更弱的条件(网络宽度指数级下降)实现相同收敛速率。

  • Neural Tangent Kernel

    • 瑞士的理论物理学家NIPS2018提出的概念,考虑无限宽的神经网络应用GD后收敛到什么——一个全新的Kernel!

Generalization:

  • over-parametrization

    • 现在神经网络(特别是大模型)基本上都是over-parametrization,然后表现良好。

    • 经典的机器学习理论(主要关注泛化,VC-dimension、epsilon-covering number、rademacher average)全部失效,因为他们给出的结果:如果要好的generalization,就应该under-parametrization。当over-parametrization时,这些理论给出的结论是trivial的(注意不是错的)。这些理论只关注model 本身,没有想learning的其它点。具体来说,传统的泛化界主要关注深度网络所代表的整个函数集的复杂度。DL成功的另一个关键原因是我们使用的训练算法。训练算法可能只搜索函数集的一个子空间。

    • Model的Generalization和用什么训练算法(SGD这种固定的或是Adam这种自适应的)关系可能最大,而不是参数量是over还是under。王立威他们等人的猜想是正是因为SGD中的这种随机性学出来的Model泛化性好(用GD可能就不行了),也有实验验证了这种现象。

    • Generalization Bounds of SGLD for Non-convex Learning: Two Theoretical Viewpoints。采用SGD的变体SGLD(但完全不一样)来近似mini-batch(这个数学上不太容易分析) stochastic gradient descent(最后一项噪声模拟mini-batch的影响),进而研究model的泛化性。SGLD是一个常见的SDE(随机微分方程)的离散化。

    • 他们在泛化界的结果中说明了随机性(噪声)的影响:噪声加的越大,training error和test error之间的差距就越小。泛化界和训练轮数也有关系。还从PAC-Bayesian角度分析了,这个的结论更微妙。

总结:

  • 现在DL是走到一个大工程的阶段,但理论只能分析很简洁的模型,因此要找对切入点——要分析什么问题。

  • 最终希望理论要对实际的模型、算法产生意义。

答疑:

  • 上面这些结论都建立在样本独立同分布的基础上,因此training error和test error也独立同分布。当然可以让training error和test error也独立不同分布,于是类似于domain adaptation,泛化界会多一个training distribution和test distribution的KL散度。

  • 现实中很多网络的宽度没有data的dimension那么大,Universal approximation theorem还成立么?答:很多data在高维中是低维流形方式存在,只要宽度大于这个流形的dimension定理应该还成立。

  • 剪枝和量化又将模型的参数量降下去了,且效果一样,这是不是和泛化的over-parametrization矛盾?答:不矛盾,因为虽然可能存在一个小model和大model的等效,但如果一开始就训练小model可能找不到这个小model。现在一个共识是:一开始在over-parametrization的model上训练,此时的loss landscape会变得非常好,帮助你优化进而找到好的解。如果一开始用小的model,那么loss landscape会很坏,然后什么都找不到。

  • GNN避免过平滑的理论指导?答:看看graphormer(Do Transformers Really Perform Badly for Graph Representation?)也是他学生做的。王立威老师觉得可能GNN的设计要比之前处理图像、文本的更难,因为输入是个图。

安全问题:

  • 轮渡安全

    • 纽约这边有轮渡要往返,但是害怕被歹徒攻击,于是可以用小的巡逻船来保护他们,但是资源限制(巡逻船少、路线规划)

    • 建模成一个博弈问题,用线性规划来求解最小化歹徒收益。理论上相比于现有方案风险降低50%。13年的研究,已经被美国海防部署了。

    • Protecting moving targets with multiple mobile resources

    • 这里的攻击者会仔细决策,更加理性;同时这个场景假设攻击者完全理性相当于考虑最坏情况下的收益。因此用nash均衡作为目标是合理的。

  • 野生动物安全

    • 机器学习(包括决策树、高斯过程、马尔可夫随机场、神经网络等)从大量数据中学习盗猎者的行为,生成一个地区盗猎风险热力图。考虑到盗猎者可能适应我们的新的策略,再引入博弈论技术生成保护者的随机巡逻的方案。

    • When Security Games Go Green: Designing Defender Strategies to Prevent Poaching and Illegal Fishing等。

    • 部署于中国、乌干达、马拉西亚,发现的确抓到盗猎者的数目增多了。算法集成于SMART,超过600个保护区可以使用。

    • 改进1, real-time: Deep reinforcement learning for green security games with real-time information,可能保护者在巡逻的时候看到了盗猎者的踪迹,因此可能不采用先前一次博弈结果。将这种实时的交互建模为马尔可夫博弈,发生在格子世界(这里对山地场景的建模也可以学习一下)。

    • 改进2, robust: Robust reinforcement learning under minimax regret for green security,盗猎者不是完全理性的,保护者的策略会影响盗猎者的策略,进而影响动物的分布;下次保护者面对的情况可能就和上次完全不一样了。因此这是一个长期的序列决策问题。保护者一开始设计策略时就要考虑到长期影响。同时不确定性存在,收集到的数据可能无法完全反映盗猎者行为模式、且盗猎者行为模式可能会随时间变化。

    • 盗猎者有些时候很随意,因此用学习的方式学习出盗猎者非完全理性的行为模式。

饥饿问题:

  • 食品银行

    • 用神经网络预测某个请求被某个志愿者接受的概率,进而把请求推送给某个志愿者(这样不会把不合适的请求推送给志愿者,降低对他们的打扰)。

    • 他们进一步改进了其他方面保证每个志愿者每天收到的信息不太多。

    • 实际部署了,反馈良好。

书籍

费曼语录
  • 坚持做一个善于思考的人,你将会一直自由,因为自由是思想和行为的一致。

  • 我理解不了一般的事情,我必须在心里寻思一个具体的例子,看它怎么走。

  • 真相总是好玩的,这意思是,它能解释的东西,远超过你在开始琢磨它的时候的期望。

  • 画画儿,破译雅玛文字,打鼓,撬保险柜,等等,我都竭尽全力。生活的真正乐趣,就是这种不停的考验,实现任何潜力,能走多远,就走多远。

  • 做研究不为实用。做研究为了发现了东西而兴奋。

  • 你永远不要怕会出来某种新生事物。天要下雨,到时候就来,那时你会努力理解它。但是,那会非常令人兴奋!

  • 如果你有什么天资,或者如果你有什么自得其乐的事儿,那就干到底。不要问为什么,不要问你可能遇到什么困难。

  • 别人认为你应该有什么成就,但你没有责任满足他们。我没有责任活成他们期望我的那个样子。那是他们的错误,不是我无能。

  • 在科学中,你应该相信逻辑,相信仔细提出的论据,不要相信权威。

  • 努力研究让你最感兴趣的东西,方式要尽可能地最缺乏训练、最不墨守成规、最原创。

  • 在你年轻的时候,找到你爱干的事儿,那事儿足够大,能占住你全部成年岁月的兴趣,那是很妙的。因为,无论那是什么,如果你做得足够好(如果你真喜欢,你会干好),大家横竖会要为你想干的事儿付钱给你。

  • 不要想“你想成为”什么东西,只想你“想干”什么事情。

  • 不要一直觉得自己是无名之辈——那活着太悲惨了。知道你在世界上的位置,公平地评估你自己,不要用你年轻时的那些幼稚想法来看你自己,也不要用你错误地设想是你老师的那些理想来看你。

  • 我不能创造的东西,我也不理解。

  • 我是一个探索者,对吧?我对万事万物都好奇,我就想研究五花八门的东西。

  • 如果我们认为往昔是漫长的时间,未来似乎就更加漫长得不可思议。

概率论发展史研究
  • 测度是一种泛函,泛函分析中的不少概念都可以在概率论中找到对应。

  • 1812年拉普拉斯出版《分析概率论》,标志着分析概率论的诞生:以特征函数、微分方程、差分方程为研究工具,主要研究连续型随机变量。拉普拉斯最重要的工作是证明了棣莫弗-拉普拉斯极限定理,即二项分布收敛于高斯分布。这是连接离散型随机变量和连续型随机变量的纽带。拉普拉斯是国家管理者、一流数学家。

  • 1933年柯尔莫戈洛夫出版《概率论基础》,给出较为圆满的概率论公理化体系,标志着现代概率论的诞生,以集合论和测度论与实变函数论为主要研究工具。

  • 当重复随机试验次数无限增大时,小概率事件必然会发生。这也是“有志者事竟成”的概率解释。

  • 1657年惠更斯出版《论赌博中的计算》,标志这概率论的诞生;在其解决一个赌博问题(《论赌博中的计算》的命题14)时,虽然给出了问题的解析式,但是因为没有和帕斯卡一样利用组合理论来解, 因而就未能将问题推广到一般形式。惠更斯的解法得到的递推公式本可以推导出几何级数和其他数学概念,但是他都失之交臂。我的批注:要把自己研究做完善!不要错过宝藏!

  • 正态分布的发现者是法国数学家棣莫弗(读作:di mo fu),他年轻时只能靠做家庭教师来维持极贫困的生活,但最后成为柏林科学院院士。他以二项分布的逼近导出了正态分布的表达式。我的批注:我觉得自然底数e、圆周率π、正态分布曲线都是蕴含着真正宇宙密码的自然现象,正是这些东西的存在让我意识到科学研究是必要的,纯理论研究也是必要的。计算机科学家不能只看到各种技术的应用前景、社会力量,也应该意识到我们接触的事物中蕴含着宇宙的密码。

  • 贝叶斯一生未婚,主要从事神学和数学的研究,他的数学研究很出色,同时代人称之为杰出的数学家。贝叶斯家族是富豪家族,贝叶斯和弟妹过着衣食无忧的生活。

  • Fisher在1930年左右提出LDA。现在模式识别中还会介绍这个方法。

  • 泊松分布的提出者是法国数学家泊松,他的研究特色是应用数学方法解决各种力学和物理学问题,由此得到大量的数学发现,他一生发表论文达300余篇。他还发现了泊松大数定理。

  • 柯西是典型的反概率者,他找到了柯西分布。可惜对最小二乘法的质疑掀起了对概率论的反思运动以及哲学家对概率论的反对(哲学家反感数学的傲慢),而导致了概率论在法国的暂时性的停滞不前。

  • 由于西欧数学界对概率论的偏见(“只是数学游戏而已”),且拉普拉斯和泊松过分强调概率论应用于“伦理科学”,这几乎葬送了概率论作为一个精密学科的前途,以致于19世纪下叶概率论在西欧停滞不前。 圣彼得堡数学学派挽救了奄奄一息的概率论,此后俄罗斯逐渐成为概率论的世界研究中心且引领概率论的研究方向,这种领先地位一直保持到20世纪中叶。这里有一连串的大数定理和中心极限定理。 比如1900年李雅普诺夫利用特征函数精确描述了中心极限定理的条件,第一次科学地解释了实际问题中许多随机变量服从正态分布的原因。

  • 李雅普诺夫的成功是对马尔科夫的一个打击。为了恢复矩方法的声誉,马尔可夫一直在努力奋斗。经过8年的艰苦努力,马尔科夫终获成功,在 《论李雅普诺夫创立的概率极限定理》一文中,他创造性地提出了“截尾术”,克服了特征函数法过分依赖于独立性的弱点, 开辟了通往非随机变量的研究道路。应用这一新技术,马尔科夫实现了多年来精确论证中心极限定理的理想。“截尾术”已和“对称化”,“中心化”成为现代概率极限理论中的三大技术。

  • 概率论的研究对象逐步扩展的过程:随机事件,随机变量,随机向量,随机序列,随机过程。

  • 现代随机过程大致可分为马尔科夫过程,平稳过程,布朗运动,离散鞅,无穷粒子马尔科夫过程和超过程等。

  • 马尔科夫在成为院士且退休后进入到其黄金研究阶段,提出并证明了马尔科夫链的相关理论,拉开了随机过程的研究帷幕。马尔科夫具备极高的数学天赋,加之切比雪夫等数学大师的熏陶和培养以及圣彼得堡数学学派成员间的合作与竞争,其数学潜能得到最大程度的开发。

  • 1942年日本数学家伊藤清引进随机微分。1950年美国数学家杜布开始研究鞅。

Personal Statement

Through his research, he strives to understand how optimization techniques can be leveraged to inform better decisions and outcomes under conditions involving uncertainty, hidden information, and different incentives for the agents involved.

How can machines make optimal decisions under imperfect information and strategic behavior?

蔡怀广的研究兴趣

我对实际问题的建模和优化感兴趣。

  • 模式识别中优美的建模和优化将我引领入科研的大门。

  • 我有一项研究,试图建模在数据分布发生偏移的场景中,t+1时刻的神经网络性能与t+1时刻推理配置和前t时刻训练配置的关系,然后提出在线算法,使得到的配置安排有性能保障。

  • 我还有另外一项研究,试图建模推荐算法对人群观点分布的影响,然后设计出能够降低人群观点冲突等指标的最优推荐算法。

我认为,建模是人对研究问题的抽象,包含了人的先验知识;而优化,则依赖于数据。因此,更广泛地来说,我的研究路线属于“知识+数据”双驱动。 虽然目前“神经网络建模+梯度下降优化”在几乎所有问题上不需要人类知识就取得了极大的成就,但它的不可解释性阻碍了它在关键问题上的应用。我希望我的研究能够推进这个问题的解决。

关于博弈论我有两个体会:

  • 博弈论是用在决策过程中的:当考虑多个智能体之间的交互,最优控制、预测就会和博弈扯上关系;而决策是未来AI的发展方向,因此了解博弈论的进展是有用且必要的。

  • 发挥计算机科学家在定量方面的优势,不是说经济学家研究了这么多年我们就没有可以继续研究的了,经济学家往往数学不太行,只给出定性的结果,我们可以站在他们的肩膀上给出更加精准的刻画。

我关注决策方面的研究,曾大军研究员说“在现有的感知方面的研究已经快成熟的时间段,决策是下一个研究热点”,而决策分为单个体决策和多个体决策。在单个体决策上,如果全部信息已知,这就是传统的优化理论;如果要对抗未知信息,如果决策是单轮的,那么就是分布鲁棒优化;如果决策可以是多轮的,那我们可以考虑通过learning的方式得到更好的结果,在线优化或者在线算法是主要的研究内容。 在多个个体的决策的研究上,多个个体如何在交互的环境下决策,是研究的主要难点。因此,我也关注博弈论和机制设计。

然后从机器学习理论的角度,张文生老师翻译的那本书中说明在线优化和博弈这两个本身就有密切的联系(一方面在线优化可以导出冯诺依曼极大极小值原理,这个东西是基本上就是二人零和博弈的纳什均衡;另一方面在线优化可以看做是单智能体和环境的博弈)。 上面内容实际是“怎么办”的角度,就是我们要如何决策。在线优化和博弈论都是有理论保证的:在线优化的regret和博弈论的price of anarchy保证了我们做出的决策和理想中最优决策的差距在一定范围内。(在线优化也是理解强化学习的一种方式,但通常认为强化学习是去找最优决策的,没有那么强的理论保证。) 在线优化和博弈论都是一种决策方法,解决了“怎么办”的问题,理论保证本身就是一种为什么;但对于深度强化学习的“为什么”,可解释性还有待研究。我觉得要是在这几方面都做出一下成果,我的研究就比较完整了。

应用方面,我计划将机制设计、在线优化、可解释性用于推荐系统等信息检索类软件,将强化学习、博弈论、可解释性用于游戏等人机交互类软件。