再见,Microsoft Academic——你好,开放式研究基础设施?
【翻译于 Aaron Tay、Alberto Martín-Martín 和 Sven E. Hug 的《Goodbye, Microsoft Academic – Hello, open research infrastructure?》】
今年晚些时候宣布关闭 Microsoft Academic 可能使研究界基本上不为所动,尽管它的消亡对使用该服务的大量数据库的人具有重大影响。在这里,Aaron Tay、Alberto Martín-Martín 和 Sven E. Hug ¸ 讨论了 Microsoft Academic 与竞争对手的不同之处,以及 Microsoft 退出学术元数据以开发开放式研究基础设施的潜在后果。
近日,微软宣布将关闭仅次于 Google Scholar 的第二大学术搜索引擎 Microsoft Academic。尽管全球科学界对这一宣布几乎没有注意到,但许多计算机科学家、元研究人员、图书馆员和初创企业都感到震惊,因为他们一直在围绕数据库构建信息服务生态系统。
Microsoft Academic 并不是该公司首次尝试构建文献搜索工具。作为较早的项目,Microsoft Academic Search 从 2009 年运作到 2012 年一直陷入年久失修,直到 2016 年正式重新启动为 Microsoft Academic。这表明 Microsoft 从未打算进入学术元数据业务。相反,正如雷德蒙德研究人员最近的一篇文章所暗示的那样,这家科技巨头一直在使用学术交流数据作为大数据和人工智能 (AI) 技术的试验场。有传言称,微软可能会提供经过测试的技术来从 Office 365 中的文档中获取知识。
一个复杂的搜索引擎
虽然 Web of Science 和 Scopus 等传统引文索引主要基于选定的期刊,但 Microsoft Academic 的优势在于它抓取网络的方式以及使用人工智能技术填充其数据库。因此,Microsoft Academic 在索引新出版物方面的速度更快并且包含比 Web of Science Core Collection(7900 万)和 Scopus(7500 万)多得多的记录(1.94 亿,无专利)也就不足为奇了。Microsoft Academic 还涵盖范围更广的出版物类型(预印本、工作论文、论文等),并在传统引文数据库通常无法很好涵盖的研究领域大放异彩,例如计算机科学、社会科学和人文科学。
“Microsoft Academic 的优势在于它抓取网络的方式以及使用 AI 技术填充其数据库的方式。”
Microsoft Academic 相对于 Google Scholar 的一个主要优势是搜索界面,目前它仍然提供充足的过滤和排序选项,并提供各种排名(主题、期刊、机构等)以及摘要统计的可视化。尽管该搜索引擎是免费的,并且为学者提供了一个集成的社交网络,但它从未受到研究人员的欢迎,从网络流量统计中可以看出:
这种低使用率的主要原因可能是搜索界面本身。它从根本上不同于传统的学术搜索系统,因为它是由人工智能技术驱动的。具体来说,该界面提供了真正的语义搜索,而不是使用布尔运算符进行通常的关键字搜索。或者正如微软曾经解释的那样:'微软学术理解单词的含义,它不只是将关键字与内容相匹配。例如,当您键入“Microsoft”时,它就知道您指的是该机构,并向您显示由 Microsoft 附属研究人员撰写的出版物。此外,搜索引擎基于超过 700,000 个“研究领域”(即主题或概念),这些领域由算法创建并不断扩展,而其他搜索系统使用固定的、人工策划的和不太复杂的分类。此外,搜索引擎采用两个独特的指标,显着性和估计引用数,这对于大多数用户来说难以理解和解释。总体而言,这些人工智能驱动的功能创造了一种与用户习惯截然不同的搜索体验。由此看来,所采用的人工智能技术对用户来说要么过于前卫,要么不够成熟。
大量免费数据
虽然搜索引擎尚未被科学界所接受,但其底层数据 Microsoft Academic Graph 却吸引了众多用户。有几个原因。数据集庞大,结构良好且详细。它的使用是免费的,而且访问很方便(API 或完整的数据转储)。相比之下,直接访问谷歌学术数据是不可能的,只能在非常有限的范围内从谷歌学术中抓取数据。尽管微软专门采用人工智能技术来收集和整理数据,但数据质量相当准确,适合对学术交流的某些方面进行大规模分析。
“Microsoft Academic 使研究人员和商业企业能够以较低的成本使用全面的元数据”
通过这种方式,Microsoft Academic 使研究人员和商业企业能够以较低的成本使用全面的元数据。在微软提供其数据库之前,只有少数研究所(富裕国家)的研究人员可以访问大型数据集,而拥有此类数据的公司大多将其用于自己的产品。自 2015 年以来,介绍 Microsoft Academic Graph的论文已被引用超过 500 次,这表明该数据库在研究中的有用性。该图还用于许多商业和非商业工具和服务(例如,VOSviewer、Unsub、Litmaps、scite)。甚至还有一些书目数据库和搜索引擎可以利用 Microsoft Academic 的丰富资源(例如Semantic Scholar、The Lens、Scinapse)。
尽管 Microsoft Academic 的关闭不会以同样的方式影响这些工具和服务的性能,但很明显,宝贵的资源将在今年年底丢失。它是否以及如何被取代还有待观察。最便宜的解决方案是向 Microsoft 支付继续使用数据库的费用,这当然需要 Microsoft 愿意让它继续运行。每年更新 Microsoft Academic Graph 内容的云计算成本大致相当于一位经验丰富的数据科学家的薪水。数据库的一位开发人员最近估计将 Microsoft Academic 维持在当前的技术水平所花费的费用大约是中型大学为传统引文索引中的数据支付的费用的三分之一。
走向开放的研究基础设施?
Microsoft Academic 展示了由 AI 技术收集和整理的公开可用元数据的价值。它为研究人员和商业企业提供了沃土。当然,还有其他开放的元数据源。例如,Crossref 包含超过 1.25 亿条记录,其中 4800 万条具有开放引用,这要归功于 I4OC 和合作出版商。但是,Crossref 较小,包含的详细数据较少,整理的一致性较差,并且仅索引具有 DOI(数字对象标识符)的出版物。
最后,微软的项目证明,仅仅公开数据库是不够的——数据库还必须是可持续的。如果我们想要开放和可持续的数据库,那么投入更多时间和资源来构建它们可能是一个好主意。首先,我们可以支持那些计划构建开源和免费使用Microsoft Academic 替代品的人。
注: 本文为作者观点,不代表社会科学影响博客的立场,也不代表伦敦经济学院的立场。 如果您对在下面发表评论有任何疑虑,请查看我们的 评论政策。
版权声明: 本文为 InfoQ 作者【DisonTangor】的原创文章。
原文链接:【http://xie.infoq.cn/article/1bc25ce0a64266aa9c961d769】。文章转载请联系作者。
评论