要读的论文越来越多,这种方法让你不被「淹没」
2020-07-08 15:21:02 Author: sspai.com(查看原文) 阅读量:425 收藏

Matrix 精选

Matrix 是少数派的写作社区,我们主张分享真实的产品体验,有实用价值的经验与思考。我们会不定期挑选 Matrix 最优质的文章,展示来自用户的最真实的体验和观点。

文章代表作者个人观点,少数派仅对标题和排版略作修改。


前言

这是一个信息爆炸的时代,连学术论文也概莫能外。当代研究生如何才能不被泛滥的论文所淹没,以至于在学术研究的海洋上乘风破浪?本文将介绍一套简单实用的存量阅读+增量阅读的阅读方法论。

学海无涯

开始之前,先来看一组数据。

这是一个公认的事实,这是一个信息爆炸的时代。信息每天都在增长,并且增长得越来越快。但是你知道,学术论文的数量,每月/每年以怎样的速度在增长吗?

微软学术的统计1 显示,自 2013 年以来,所有学科合起来,年新增出版物(包括图书、期刊/会议论文、专利等)每年都超过了一千万。

微软学术显示的年出版物数量

arXiv,一个著名的论文预印本发布平台,它的统计显示:

  1. 2019 年的年新增论文数已经超过了 15 万,具体为 155,866 篇,月均 12,989 篇(左图2 );
  2. 2020 年 4 月,月新增论文数已经超过了 15,000 篇,日均 500 篇(右图3 )。
左图:arXiv 上年新增论文数;右图:arVix 上月新增论文数

如果所有学科的出版物与多学科论文的激增并没有让你产生被淹没的感觉,那么你可以留意下自己所在领域的顶级期刊或者会议的投稿量与录用论文数的逐年变化。

事实上,让我产生「论文读不完了」感觉的正是,近年来,人工智能领域的顶会论文几年翻一番的投稿量与录用论文数:

  1. 许多会议 2019 年的投稿量相对于 2018 年都出现了激增,相对于 2017 年都翻了一倍有余(左图4 );
  2. 无论录用率是保持不变还是下调了,随着投稿量的激增,会议录用的论文数同样在激增。对于一些会议,录用论文数也是两年翻一倍(右图)。
左图:2014-2019 年,五个 AI 顶会的投稿量变化;右图:录用论文数变化
我不清楚其他学科或者计算机的其他领域是什么情况。但是 AI 是一个重会议轻期刊的领域,相对而言的轻和重。它近年来得以快速发展,其中一个原因就是会议论文的短平快,极大地促进了学术交流。

从所有学科的出版物、到多学科的论文、再到具体领域的会议论文,无一不在证明,在这个科学技术是第一生产力的时代,学术论文与研究报告的激增是大势所趋,是全面的、加速的。

读作舟

面对研究性工作的知识爆炸现状,我们如何通过阅读获得有价值的内容,构建自己的知识体系呢?

我来抛砖引玉。以下是我践行过的一些方法:

  1. 看教科书/专业书籍;
  2. 看论文综述;
  3. 看经典论文;
  4. 订阅经典论文的施引论文;
  5. 订阅学术大牛的论文;
  6. 关注大牛的动态;
  7. 关注顶级会议或者期刊的动态。
稍微扯远一点讲下,就我个人以及身边的研究生同学的实际情况来看,我国的研究生教育存在这样的问题(如果只是个别现象,那就太好了):研一的课安排得很满,但多是于研究无益的专业课,感觉像在读大五。真正培养学生的基础研究能力的课程,要么变成了选修课,要么安排得学生和老师都不乐意上。这样的课,我上过两门。一门其他学院开设的《英文科技论文写作与投稿》的选修课,结果整片校区就 3 个人选了,老师不开课了,我又太想上了,于是每周乘 3 小时的车去另一个校区上 1.5 小时的课;一门本学院开设的《科技论文写作》的必修课,第一位授课教师全程在抱怨和吐槽,导致同学们再也不正视这门课了。
也许有同学认为培养学生的研究能力是导师的责任。我同意这一点,如果能遇上好导师,你的研究生活一定会很开心,养成的习惯甚至会让你终身受益(这一点,我很幸运,感谢我的导师)。但是来了,导师的能力各不相同,有些导师的个人能力超强但不一定擅长指导学生,有些导师自己就是混子,等等。基于此,我认为培养研究生基础的研究能力的重担应该落在校方或者院方身上,导师则是来进一步拔高你的。
我的导师给了我做研究的自由。他的原意是这样的:做科研是枯燥的,做自己不喜欢的科研是令人绝望的枯燥。愿你能做自己喜欢的研究~
自由的结果是,我最终选择了和导师相去较远的研究方向;而代价是,导师不能授我以鱼了,我无法从他那里获得具体看什么的建议。这三年跌跌撞撞,看过不少论文,一开始是瞎看什么都看,慢慢地有了明确的阅读目标,知道要缺啥补啥;读到精彩处会拍案叫绝,看到水文也会嫌弃得要死,慢慢地有了自己的品位。
总而言之,这篇文章的目标是,希望我个人的这一套阅读方法论(参考了许多人的建议,在此对 Ta 们表示感谢)能够帮助在研究的路上同样缺少指引的同学少走弯路,把更多的时间投入到更有价值的研究上。

存量阅读

我不知道你是否把前面三步都做好了,是的话最好,还没有的话,有时间最好看一看这些内容。

基本上,从事任何研究,你都可以从前面三步开始,它们几乎是研究入门的必由之路。现在,让我们来看看,为什么你一定要先从教科书看起,再看论文综述和经典论文。

凡战者,以正合,以奇(jī,多出来的意思)胜。——《孙子兵法・兵势篇》
先出合战为正,后出为奇。——曹操

学术研究,99% 是在做 N+1 的工作,在于一个「奇」字。但是,就入门而言,没有什么比打好基础更重要的了,也就是要先有 N,即曹公所谓的「先出合战为正」。

在所有资料中,教科书最全面也最系统地梳理了一个领域的知识,在各个领域中都是被主流认可的「正统」。日后的阅读,都是在此时打下的基础上做知识的更新。因此,面对多达几百页的书籍,你要耐下心来啃。磨刀不误砍柴工。啃完了教科书,你对所在的领域会有高屋建瓴的理解,之后的阅读与理解会更加事半功倍。

第二步你要看一些近期的论文综述。与教科书相比,论文综述的内容更加具体,与你希望从事的具体研究也更加相关。阅读论文综述,弥补了书本知识的滞后性,方便你快速地跟进研究前沿。

在这之后,你要看所在领域以及相关领域中的经典论文,甚至要反复地看。经典论文的价值自不必说,经过时间的大浪淘沙,留下的都是金子。它们或解决了研究领域中的关键问题,或破而后立,引发了范式转移,总之都是日后诸多研究的基石。

通过教科书和综述,你很可能已经了解了经典论文的思想或者方法。不过我还是建议你至少看一遍这些论文,原因有二:

一方面,就像历史研究一样,你只有深入到当时的时代背景,知道那时的关键问题是什么、局限有哪些、资源又有哪些,才能更深刻地理解作者的思考逻辑,把握论文的精髓,明白经典之所以被奉为经典的根本原因。相信我,这样的训练对你今后的研究会很有帮助。

另一方面,经典论文通常写得极好,无论是研究方法的呈现,还是比较工作与结果的分析,都让人赏心悦目。多看经典,有助于培养对论文的品位和写作能力。

看过了经典论文,如果感觉还有欠缺,建议补充阅读一些与你的研究相关的最新的论文。

再补充一点,对于大部头的教科书,你可以看中文教材,这样看起来更顺畅,更容易坚持把它啃完。对于论文,如果你所在的研究领域是用英文交流的、国内外顶尖的研究都是以英文发表的,那么请尽量阅读英文文献。一来内容的时效性更强,二来同样有助于培养学术品位。

完成了前面三步,大体上就完成了存量知识的储备,也就是有了 N,你可以开始做一些 +1 的尝试了。

增量阅读

你开始做研究了。然而论文们不会因此停止产生,它还会源源不断、源源不断地产生,直到把你淹没。

为了对抗论文的泛滥,你必须对新的论文进行「过滤」。为了区别于上述做存量知识储备所做的阅读,将此时的阅读称为增量阅读

我所列举的后面四步正是为增量阅读准备的。

学术研究是在前人工作的基础上进行改进,自然要引用前人的工作。而天下论文共一石(dàn,等于十斗),经典论文独得八斗,对经典论文的引用通常是免不了的。因此,订阅经典论文的施引论文,通常就能够跟进你所在领域的最新研究了。

当读到与你当前的想法或者所做的研究很相似的论文,一个好习惯是,再订阅它的施引论文。如此,你就不会错过这一条线上的研究,还能避免重复他人的工作。

除了施引论文,我建议你再订阅大牛的新作。青年学者通常会在一个领域内持续地发光发热,订阅 Ta 们新出的论文,你能够持续地跟进 Ta 们的研究。而且,从 Ta 们的一系列论文中,你没准能够发现一条主线脉络,见贤思齐,你可以考虑将自己的研究往这个方向靠。

对于成名已久的泰山北斗,订阅一个人很可能就是订阅一个机构。有利有弊,利在你获得了一大群人的智慧,弊在研究不那么聚焦,与你的研究无关的论文会变多。

我推荐一个提供论文订阅的平台——Semantic Scholar5 。它首先是一个论文搜索引擎,不过提供了很方便的论文订阅功能,同时支持施引论文和新作。就订阅功能而言,比 Google 学术更好用。更重要的是,国内可直接访问。

除了订阅大牛的新作,我还建议你在社交媒体上关注 Ta 们。这一方法实际上是吴恩达老师6 推荐的。

在互联网时代,我们主要有两种获取信息的渠道:搜索和推荐。关注大牛,你将获得 Ta 们替你筛选、推荐的有价值的内容。当然,你还能实时地获悉 Ta 们的研究近况。

国外的社交媒体首推推特,这也是吴恩达老师推荐的。就 AI 而言,推特上有大量活跃的学术界、工业界的大牛以及机构,比如吴恩达老师本人、 Google 的 Jeff Dean、OpenAI、DeepMind、斯坦福大学的以人为本 AI 研究院 HAI 等等。

增量阅读的第四步是关注顶级会议和期刊的动态。如果你想更全面地了解最前沿的研究,这应该是最好的方式。

顶会和顶刊收录的论文代表了最新的被学术界认可的研究成果。

诚然,arXiv 等预印本发布平台的流行,加速了思想的交流。但是任何人都可以在其上发布论文,加之缺少同行评议,许多预印本论文的质量是无法保证的。除非是大牛的新作或者有大牛的背书,又或者你有足够的眼力,否则,你应该尽可能少看预印本论文。因为捡到沙子的概率比金子大得多得多。

对于从事 AI 研究的同学,我再推荐一个网站 AI Conference Deadlines7 。站如其名,它汇总了许多人工智能领域顶会的举办日期,并且以倒数计时地方式显示了投稿截止时间。此外,可以订阅日程,再也不用担心错过投稿时间了。

结语

本文介绍了一套易于执行、人人都能上手的阅读方法。清晰起见,我按照新知产生的时间,将阅读分成了存量阅读和增量阅读。存量阅读主要负责打好基础、储备知识,增量阅读则对知识进行补充和更新。不过要知道,存量知识最初都是增量知识,增量知识最终都会转化为存量知识,两者相互交织,构建起你的知识体系。

我写这篇文章的初衷是:希望在研究生毕业之前,送学弟学妹以及未来的学弟学妹们一份礼物。思来想去,也许这个最合适。如果你觉得这篇文章还不错,希望你能转发给你的同学和学弟学妹们。谢谢~

> 下载少数派 客户端 、关注 少数派公众号 ,了解更妙的数字生活 🍃

© 本文著作权归作者所有,并授权少数派独家使用,未经少数派许可,不得转载使用。

赵喧典


文章来源: https://sspai.com/post/61062
如有侵权请联系:admin#unsafe.sh