注:本文是《经验卷轴:如何入门学术论文写作》栏目的试读文章。《经验卷轴:如何入门学术论文写作》将从零基础储备知识和选题开始,完整覆盖科研写作从选题、考察、知识储备到内容创作以及最终答辩的全流程,手把手带你完成长篇学术论文创作的全流程。
给研究生上课的时候,有一回的作业,是让他们就某一个具体领域做文献分析。这个作业基本上就没有完满而愉快地完成过。
学生们常见的做法是拿一个关键词去文献数据库里面搜索。如果得到的结果是个位数,则大喜过望。把文献都下载下来,一一阅读,然后手动做个统计图表,展示出来。
如果搜到的文献数量超过 3 位数,学生们的做法往往是双手一摊,告诉我:「老师,文献太多了。读不过来,就没做。要不然您告诉我哪几篇文献重要?我马上去看,下周展示。」
我时常被这种创意答案气乐了。
实际上,这个任务训练学生将来做毕业论文时如何综述文献。他们的答案并不全错。大部分情况下,你找到一个想法,一个问题。只要一搜索,就会发现相关文献如长江之水滚滚而来。把全部文献都看一遍,基本上是不可能的。即便把存量看完,数量更多的增量文献又涌了出来。你很快会陷入深度抑郁。正如《庄子·内篇·养生主》里说:
吾生也有涯,而知也无涯。以有涯随无涯,殆已!
你的时间和注意力是有限而珍贵的。因此你必须对文献歧视对待,选择重点文献来阅读。大部分文献都会被你丢弃不读或者只是扫读(skimming),你大可不必为此羞愧甚至自责。
哪些文献是重点文献呢?这个问题你必须学会自己解决。而不能坐在那里等着老师喂给你标准答案。
学术期刊、会议和大部头著作构成的知识大网,跟你熟悉的网络论坛没有什么实质区别。常逛论坛的话,你应该对如何选择阅读内容有很深刻的体会。
常见的做法是去找那些精华帖和热帖先来看。精华帖很重要,因为其质量被高度评价、而且推荐。热帖未必质量好,可能只是当下人们关心的某个话题;或者作者的某些提法极富争议,因而吸引眼球。更常见的,只是纯粹的「标题党」而已。
一般论坛都会有专人来负责维护,去粗取精。然而学术文献里哪篇是精华?你就很难直接看标签来识别了。怎么办呢?最简单的办法是把文献之间的关系可视化。这样,你就可以看见哪一个主题(文献)下面回复(引用文献)的人更多,或者帖子的主题(文献聚类)有哪些。有了这些线索,你就可以在浩如烟海的检索结果里锁定那些重点文献了。
这个工作,当然可以手动来做。拥有方便的计算机辅助工具之前,这可能也是不得已的唯一办法。但是,现在如果你还手动绘制,效率就太低了。在这篇文章中,将介绍两个可以帮你快速完成这一工作的效率工具。
文献可视化工具有很多。从功能和易用性综合权衡,推荐 VOSviewer。
第一步,需要采集感兴趣的全部文献。采集某个领域文献的时候,应该找一个合适的入口。其中储存的文献信息不仅要全面,而且文献间的引用关系也得完整保留。
常见的入口包括 Scopus 和 Web of Science。注意这两个平台都有访问权限控制和单次下载文献信息的最大数量。请使用校园网IP地址登录操作,根据需要下载文献信息,并存储为合适的格式。为了 VOSviewer 可以正确打开,请选择用 TAB 分割的文本方式,文献记录要包含全部字段和引用信息。
然后你就可以在 VOSviewer 中进行分析了。例如你可以选择生成术语地图(term map)。不同主题的文献会自动聚类,用不同颜色表示类别,文献之间的关联一目了然。
有的主题词汇比其他的词汇更大,这表示了相关文献数量的多寡。一下子,你就能找到在你关心的「论坛」里面,哪些主题是人们更感兴趣的。
你可以放大细节,了解某一个主题内部具体术语之间的关联,以把握更为细致的脉络。
主题只是文献多种描述标记中的一种而已。因为在采集数据阶段,我们保存了全部的元数据。因此,你可以分析更多自己感兴趣的角度。
假如你关注期刊的联系,那么不妨采用共引(co-citation)关系来看期刊之间的关联网络。不同领域的期刊采用不同颜色标记。你会清楚看到不同领域期刊之间是如何发生联系的。
如果你的观察角度更为宏观,还可以用作者们所在国家作为节点,看不同国家作者间的合作关系。
这张图很明显告诉我们,当今的科研活动早已不是闭门造车、独立发展了。与国际学术界的协作关系越紧密,获益就越多。看看那些大节点的位置和链接数量便一目了然。
如果你感兴趣的话,请阅读以下参考资料,一步步学习如何使用 VOSviewer:
如果你是个视频学习者,可以看 VOSviewer 作者的 官方视频教程。作者的英语口音有些重,但是内容绝对权威而清晰。如果你偏好中文视频资源,这里刚好有一份教程。是选修我课程的研究生用工作坊模式完成的。希望对你能有帮助。
VOSviewer 非常容易上手,功能也非常强大。不过作为一个初学者,如果你希望快速了解一个新的科研领域,诚然,影响因子和排名等指标,可以告诉你这个领域里哪个期刊比较好。但是,作为研究者,你如果只了解到这一层次,还是过于粗浅。
我自己的好奇心,往往会指向某个研究领域的 3 个问题:
这几个问题,你可以采用不同的文献计量工具来解答。有的很容易完成,有的大概需要一些基础知识和技能。我最近关注到了一款工具,可以非常便捷地帮你一站式解答上述三个问题。
这款工具的名称,叫做 BiblioShiny 。它是一款 R 环境下的软件包。其实它的底层,你可能听说过,就是大名鼎鼎的 Bibliometrix 。
我是去年听同事宋丽萍教授提到它后,开始关注的。很快尝试后,觉得 Bibliometrix 这款基于 R 软件包功能果然很强大。不过,那时觉得 Bibliometrix 的用户界面还不够友好。
Bibliometrix 的各项操作,都需要程序指令完成。虽然对于文科生来说,门槛并不算太高。但是光看命令手册,可能还是会令不少人丧失尝试的冲动。
最近我突然发现, Bibliometrix 的作者们在原先功能的基础上,添加了 Shiny 作为交互可视化用户界面,于是软件易用性大幅提升。你只需要动动鼠标,就可以轻松完成许多文献计量分析功能。
例如点一下菜单里面的「Collaboration Network」按钮,BiblioShiny 就立刻为你绘制作者合作网络图。
统计文章年均被引趋势?也是点一下按钮的事儿:
软件安装方法很简单。首先下载最新版的 R 和 Rstudio。安装的详细步骤流程,请你参考我的《如何用Python 和 R 对故事情节做情绪分析?》一文介绍。
安装好后,在 Rstudio 中执行以下 3 行命令:
install.packages("bibliometrix", dependencies=TRUE)
library(bibliometrix)
biblioshiny()
当你看到浏览器弹出如下窗口,就说明软件环境已经齐备了。
有了工具,下面我们就需要数据了。
我是做信息科学的。出于近便原则,本文的样例分析对象,是信息科学领域的一份权威期刊:Management Information Systems Quarterly (下文简称 MIS Quarterly)。
注意你在分析的时候,并不需要局限在某一本或者几本期刊。完全可以使用关键词搜索相关文献。MIS Quarterly 的文献数据,我是从 Web of Science 下载的。
我对结果进行了精炼,只选择了其中的 Articles 类型。
一共 743 篇文章,导出选择的格式,为 BibTex 。
因为 Web of Science 每次导出记录数量,不能超过 500,因此前后下载了 2 个 BibTex 格式文件。我把它们打包成了一个 zip 文件(Archive.zip
)。这个文件,我为你放在了这个位置。你可以直接下载使用。
如果你希望自己从 Web of Science 下载文献记录,可以参考我的研究生吴查科和同学合作的这份视频教程。教程是关于 VosViewer 的。但其中 4 分钟以后,就有 Web of Science 文献记录检索和导出的完整介绍与展示。
在 Biblioshiny 中,选择 Load ,把 file format 设定为 bibtex,选择压缩文件,即 Archive.zip
,开始上传。
导入完毕后,展示结果列表如下:
软件有了,数据也有了。下面我给你展示一下,如何解答前面提到的那 3 个问题,以快速熟悉科研领域。
第一个问题是:
哪些作者比较厉害?
我们先来看看发文数量。能在 MIS Quarterly 这样的顶刊(而且还是季刊)发文,是有相当高的门槛的。因此这里的发文数量能够反映作者的科研能力。
点击进入 Descriptive Analysis 标签页面。
选择 Tables 。
左侧 Result 类型,可以在下拉列表选择。我们选择「Most Productive Authors」(最高产作者)。
分析结果如下:
排名首位的这位老兄,让我看得肃然起敬——他居然发表了 23 篇 MIS Quarterly!我没看错吧?好像全部文献记录条数也只有 700 多篇。
怀着好奇心,我在 Google 搜索了一下——
Viswanath Venkatesh is a distinguished professor and Billingsley Chair in Information Systems at the Walton College of Business, University of Arkansas.
Venkatesh 是阿肯色大学教授。我在他的主页,查了一下发表记录,再次震惊了!
他哪里是在投稿?分明是灌水的节奏!作为季刊,2013 年,全部 4 期上面各有一篇他的文章!但是,科研论文的数量固然重要,质量也是要保证的嘛。这种频率发文,质量能保证吗?
带着这个疑问,我们来考察一下第二个问题。
还记得吗?我们的第二个问题就是:
哪些文献比较重要?
这个问题,其实不是那么容易解答。下载次数多的论文,是不是很重要?在社交媒体上流传最广的论文,是不是很重要?
目前,学界基本能够达成共识的判断标准,还是看论文被引用的情况。
Biblioshiny 可以轻易帮助我们分析论文的 Historiograph ,以便让我们了解哪些论文在学科发展历史上,具有重要的地位。方法是选择「Intellectual Structure」菜单之下的「Historiograph」。
用默认的参数,我们可以看到数据集中这 20 篇文献,重要性较高。
点击 Table 标签页,我们看看列表展示的具体信息。
注意这里展示了 2 项统计指标,一个是 GCS
,也就是 Web of Science 中,文献被引统计总数;另一项是 LCS
,即当前数据集里,文献被引次数。
假设一篇文献 GCS
很高,但是 LCS
不高,很可能意味着在其他领域影响力更大。不过因为我们只找了一份期刊,因此这个因素不宜过度解读。
我们注意到,其中有一篇文献,两项指标都是惊人的。
这篇大作, LCS
为44(注意是被 MIS Quarterly 的其他文章引用),GCS
居然达到了 6634。这篇文献,简直就是一览众山小啊!想必你也很关心——谁写的?
往左侧的名称信息里一瞥,我们随即看到了非常熟悉的名字。没错,还是 Venkatesh 教授!
看来,这种频率发文,质量也依然是有保障的。这……是不是叫做天才?
研究主题
锁定了领域的高水平作者和重要文献后,我们来尝试回答的第三个问题是:
哪些主题更值得研究?
首先我们得搞清楚主题都有哪些。
我们选择做个词云(Word Cloud),这可以通过点击描述分析(Descriptive Analysis)来完成。
默认绘图结果如下:
注意这里的词汇,来自于 Keywords-Plus(即系统利用标题、摘要等分析结果)。我们更换一下左侧的 Field 选项,变成 Author Keywords (即作者自己列出的关键词):
确实,分析结果有了差别。我们还可以继续尝试,只从标题文字做词云:
对比上面几张图,你有什么发现?我反正是看得眼花缭乱。不过没关系,我们可以让 Biblioshiny 帮我们把主题归类一下。
点击 Conceptual Structure 菜单,选择其中的「Correspondence Analysis」。
我们关注其中的词汇地图(word map):
看到这里,你大概可以把 MIS Quarterly 的研究关注点聚焦在三个类别上。并且可以知道每个类别是如何被关键词描述的。
但是,即便你知道了这些大致的研究主题分类,也依然难以抉择,自己今后的研究方向,应该向哪里聚焦。因为,这只代表了历史和现状。你不能看着后视镜开车。
这时候,你可以使用 Biblioshiny 辅助决策。方法是点击「主题地图」(Thematic Map)选项。
主题地图中,横轴代表中心度,纵轴代表密度。据此绘制出 4 个象限。
有了这些背景知识,再回看这张图,就很有意思了。请你思考一下,哪些主题更值得你投入资源和时间去深度参与呢?
如果你对 Bibliometrix 有兴趣,该如何继续学习呢?首先,推荐给你这份 Bibliometrix 的官方图文教程。
如果你喜欢看教学视频,可以点击 这个链接 查看。
本文我们介绍了两种快速了解科研领域和文献的工具。VOSviewer 上手快,可视化程度也能满足于我们的需求。如果你会 R 语言,就可以选择了 R 环境下的 BiblioShiny 软件包。两个工具,有类似之处。例如说对于主题词分析和关键作者研究,都是有相关功能可供使用。但是,在具体的使用上,是各有千秋的。R 包里面,有一些很独特的功能,例如主题地图(Thematic Map)等。而 VOSviewer 因为出现时间更久,所以有更大的使用群体。当你有疑问的时候,社区可以给你提供更多的帮助和建议。
不管不管工具如何变化,我们始终要探索了以下 3 个问题:
当然,你会发现其实我们使用的,只是默认参数。针对你研究领域的特征,以及文献数量的多寡,参数的设置其实都是可以调整优化的。
而且你还会注意到,我们所展示的,只是 Biblioshiny 和 VOSviewer 众多实用分析功能里的一小部分。
希望本文给了你一个可以起步的最小行动范例。在此基础上,如果感兴趣,你可以继续学习和充分挖掘这些工具的功能,帮助自己更高效便捷地熟悉某一新科研领域。
© 本文著作权归作者所有,并授权少数派独家使用,未经少数派许可,不得转载使用。