智谱 AI 首席科学家唐杰团队荣获国际数据挖掘顶会时间检验应用科学奖
近日,清华大学教授、北京智谱华章科技有限公司(以下简称:智谱.AI)首席科学家唐杰及其团队获得了ACM SIGKDD 2020时间检验应用科学奖。这是华人团队首次在该领域获得此国际奖项。
所谓时间检验奖,指的是这篇论文要在过去十年间对研究,方法论以及实践产生重大影响。获奖的论文发表于2008年,标题为《ArnetMiner: extraction and mining of academic social networks》。
ArnetMiner(以下简称AMiner)指的是一个通过挖掘学术社交网络来索引结果的平台类学术搜索工具,该工具可以提取网络中研究者资料,再通过集成数字图书馆,并对整个学术网络进行建模,最终构建出了完整的学术搜索工具。根据论文的介绍,AMiner在10年前就已经标记了448470个研究者档案以供搜索。
起初,AMiner只是一个构思,随着研究的逐步完善,唐杰依然在10年间不断地扩充着搜索工具的极限。在采访中唐杰透露到,他每天凌晨2点睡觉,绝大多数时间泡在实验室中,几无中断;领域研究热点潮涨潮落,而他,研究的中心始终是AMiner系统。
截止至今,AMiner已经检索了19世纪以来全球1亿3千余万学者发表的2亿7千万余篇学术论文数据,已吸引全球220个国家/地区1000多万独立IP访问,数据下载量230万次,年度访问量超过1100万。
唐杰在采访中说到,全球的论文数量已经达到数亿篇,但是论文背后的规律却没有人能总结出来。AMiner 从学术学科意义上就是归纳这种规律。“我们希望在这个过程中,能够挖掘出学科发展背后的机理。”
依托于明星产品AMnier,由清华大学教授李涓子、唐杰等人,共同成立了智谱.AI,并且由清华大学计算机系教授、中国科学院院士张钹担任首席顾问。这是一家致力于打造可解释、鲁棒、安全可靠、具有推理能力的新一代认知引擎的公司。
智谱.AI董事长为刘德兵,他是中科院计算所博士,师从高文院士,清华数据科学研究院科技大数据研究中心副主任,同时也是Thomson北京研究院高级研究员,清华计算机系高级工程师。智谱.AI 的CTO张鹏博士为中国新闻信息标准化分会委员、电子学会标准化工作委员会机器人技术委员会委员。张鹏是2002年本科毕业于清华大学计算机系,博士在清华大学计算机系的研究方向为知识图谱。
唐杰指出,AMiner的盈利模式可以分为几大块。To C方向,AMiner是完全免费的,任何人都可以去搜索论文、查找资料。另外两个最主要的应用,一个是面向政府,一个是面向企业。而其中又可以划为两个脉络,一个是高端人才的发现和推荐,另一个是技术趋势、脉络的梳理和分析。
AMiner最早的一个盈利点是专家推荐。唐杰说到:“比如说项目评审,找谁来评?他就需要一个最合适人选的推荐;另外在高端人才引进方面,哪个方向,引进谁?这也同样需要作出推荐。”“十四五”规划,不仅仅是国家层面,甚至各级政府、各高校院所都希望能够把握未来的技术脉络,看清未来趋势。
智谱.AI所提倡的是一种图谱式搜索引擎。通过知识获取、推理与认知这样的底层技术,筛选网络资源并返回相关结果。从产品角度具体来讲,该公司除AMiner外,还提供了智慧人才挖掘系统。同样是利用数据挖掘技术,在学术社交网络中进行语义抽取和隐含关联关系挖掘,最终把匹配结果呈现给用户。
通过数据挖掘技术,智谱.AI提供了以开放合作的态度与行业研究机构共建领域知识图谱服务。以平台亿级数据及技术趋势分析等工具为客观依据,百余位行业专家主导,提供全面深入的行业发展、前沿技术、人才状况、竞争关系、投融资等分析报告。
知识图谱是一种新型的知识库技术,即利用语义检索来获取结果。相较于以往的关键字检索,语义检索的结果更符合使用者的预期。知识图谱除了显示其他网站的链接列表,还提供结构化及详细的关于主题的信息。其目标是,用户将能够使用此功能提供的信息来解决他们查询的问题,而不必导航到其他网站并自己汇总信息。
谷歌于2012年开始使用这项技术,其语义网络包含超过570亿个对象,超过18亿个介绍,这些不同的对象之间有链接关系,用来理解搜索关键词的含义。知识图谱是唐杰的老本行了,他在采访中说到:“我们最近和美团合作做了食品的知识图谱,还有我们马上将开启的石油的知识图谱等。这里知识图谱会面向各个领域,越做越大,随后我们希望能把所有这些知识图谱连接起来,构建一个非常大的常识知识图谱。”
参考文献:
Jie Tang, Jing Zhang, Limin Yao, Juanzi Li, Li Zhang, and Zhong Su. ArnetMiner: Extraction and Mining of Academic Social Networks. In Proceedings of the Fourteenth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (SIGKDD'2008). pp.990-998.
评论